欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

PHP实现的带超时功能get_headers函数

程序员文章站 2023-02-16 23:14:48
代码比较多,但是比较简单,一眼就看穿的,so,文字尽量少写了。 因为众所周知的网络原因,gavatar也开始越来越慢,写了一个小东西来解决这个问题,过程中遇到了get_h...

代码比较多,但是比较简单,一眼就看穿的,so,文字尽量少写了。
因为众所周知的网络原因,gavatar也开始越来越慢,写了一个小东西来解决这个问题,过程中遇到了get_headers这个函数,甚是忧伤,记录下来,以免后来人踩坑。
更新记录,函数稍微改了一下,返回值基本和之前序列化后的结果一致,暂时没考虑支持子项也支持数组等(考虑细节性能,还想把没用的http头砍掉….)
需求很简单:获取图片的head信息。
调试程序的时候发现这个函数的调用很缓慢,即使绑定ip,有时候都能蹦到20多秒。
寻思这个事情还是该加个超时吧,但是看官方文档,给出的导出函数接口如下:

复制代码 代码如下:

array get_headers(string$url[,int$format=0])

你没有看错,这个东西没有超时接口…
上github翻看源码,期望可以用他的底层实现来重新实现一套:
地址 https://github.com/php/php-src/blob/88ca46d92bc1c426e7c7f7313f0fd2b7dcc33cf6/ext/standard/url.c#l710

复制代码 代码如下:

/* {{{ proto array get_headers(string url[, int format])
   fetches all the headers sent by the server in response to a http request */
php_function(get_headers)
{
char*url;
size_t url_len;
php_stream_context*context;
php_stream*stream;
zval*prev_val,*hdr=null,*h;
hashtable*hasht;
zend_long format=0;
               
if(zend_parse_parameters(zend_num_args()tsrmls_cc,"s|l",&url,&url_len,&format)==failure){
return;
}
 
/** 省略其他一堆... **/
}
/* }}} */

但是很不幸的是,zend_parse_parameters 和 zend_num_args也都没有php版的导出函数。
于是造*开始:

复制代码 代码如下:

functionget_url_headers($url,$timeout=10)
{
    $ch=curl_init();
 
    curl_setopt($ch,curlopt_url,$url);
    curl_setopt($ch,curlopt_header,true);
    curl_setopt($ch,curlopt_nobody,true);
    curl_setopt($ch,curlopt_returntransfer,true);
    curl_setopt($ch,curlopt_timeout,$timeout);
 
    $data=curl_exec($ch);
    $data=preg_split('/\n/',$data);
 
    $data=array_filter(array_map(function($data){
        $data=trim($data);
        if($data){
            $data=preg_split('/:\s/',trim($data),2);
            $length=count($data);
            switch($length){
                case2:
                    returnarray($data[0]=>$data[1]);
                    break;
                case1:
                    return$data;
                    break;
                default:
                    break;
            }
        }
    },$data));
 
    sort($data);
 
    foreach($dataas$key=>$value){
        $itemkey=array_keys($value)[0];
        if(is_int($itemkey)){
            $data[$key]=$value[$itemkey];
        }elseif(is_string($itemkey)){
            $data[$itemkey]=$value[$itemkey];
            unset($data[$key]);
        }
    }
 
    return$data;
}

对比最后结果:
原版又是蛮长的等待,不知道校验啥去了(没继续追代码了,有兴趣的童鞋可以去跟下玩):

复制代码 代码如下:

array
(
    [0]=>http/1.0302found
    [accept-ranges]=>bytes
    [cache-control]=>max-age=300
    [content-type]=>array
        (
            [0]=>text/html;charset=utf-8
            [1]=>text/html;charset=utf-8
        )
 
    [date]=>array
        (
            [0]=>fri,12dec201415:35:40gmt
            [1]=>fri,12dec201415:35:43gmt
        )
 
    [expires]=>fri,12dec201415:40:40gmt
    [last-modified]=>wed,11jan198408:00:00gmt
    [link]=><[省略...]?s=42&d=http%3a%2f%2f[省略...]&r=g>; rel="canonical"
    [location]=>http://i2.wp.com/[省略...]
    [server]=>array
        (
            [0]=>ecs(oxr/838b)
            [1]=>nginx
        )
 
    [source-age]=>85
    [via]=>1.1varnish
    [x-cache]=>302-hit
    [x-varnish]=>14702550881470006304
    [content-length]=>0
    [connection]=>array
        (
            [0]=>close
            [1]=>close
        )
 
    [1]=>http/1.1504gateway timeout
)

*版返回(瞬间返回,两者内容略有不同,你仔细看就能发现一些有趣的地方了):

复制代码 代码如下:

array
(
    [0]=>http/1.1302found
    [accept-ranges]=>bytes
    [via]=>1.1varnish
    [cache-control]=>max-age=300
    [server]=>ecs(oxr/838b)
    [content-type]=>text/html;charset=utf-8
    [x-varnish]=>14702550881470006304
    [date]=>fri,12dec201420:31:02gmt
    [location]=>http://i2.wp.com/[省略...]
    [expires]=>fri,12dec201420:36:02gmt
    [source-age]=>85
    [last-modified]=>wed,11jan198408:00:00gmt
    [x-cache]=>302-hit
    [link]=><[省略...]?s=42&d=http%3a%2f%2f[省略...]&r=g>; rel="canonical"
    [content-length]=>0
)