最快的速度获取网页所有图片的长和宽。解决办法
程序员文章站
2024-01-23 13:29:04
...
最快的速度获取网页所有图片的长和宽。
不知道大家有没有玩过 http://pinterest.com ?注册后,它有一个 add a pin, 当你提交一个网站的URL后,按Find Images时,它可以查找你提交网页上所有图片的(并进行长和宽条件的筛选),整个过程一般在10秒左右。
最近想模仿它,做一个小功能组件。已经摒弃掉万恶的 getimagesize() (需要48.64秒),换用 imagecreatefromstring()(还是需要26.13秒),和它10秒左右的成绩,简直是天壤之别。
要考虑 TCP 连接数,要做到服务器资源最省化,还要考虑执行时间最少化。求助万能的大虾们,如何继续优化代码?可以跑的更快些。
------解决方案--------------------
也许能走个弯路,减轻服务器网络压力。
服务器负责解析HTML数据,统计image标签信息,最后将收集的文本数据送回客户端。
加载图片由客户端来完成,只需读取width,height属性,就完全可以获取图片的原始大小。
好处多多,不过可能的麻烦是防盗链
------解决方案--------------------
顶楼上
PHP获取资源
javascript 取图片长和宽
------解决方案--------------------
读取并解析 2.8秒
读取图片(138个) 27秒
找到 7 个
仅从优化代码出发,应该油水不大
可考虑多路并发
------解决方案--------------------
读取并解析 3.6秒
启动读取图片进程(138个) 1.3秒
结果文件中记录数 7 个
不知道大家有没有玩过 http://pinterest.com ?注册后,它有一个 add a pin, 当你提交一个网站的URL后,按Find Images时,它可以查找你提交网页上所有图片的(并进行长和宽条件的筛选),整个过程一般在10秒左右。
最近想模仿它,做一个小功能组件。已经摒弃掉万恶的 getimagesize() (需要48.64秒),换用 imagecreatefromstring()(还是需要26.13秒),和它10秒左右的成绩,简直是天壤之别。
要考虑 TCP 连接数,要做到服务器资源最省化,还要考虑执行时间最少化。求助万能的大虾们,如何继续优化代码?可以跑的更快些。
- PHP code
function ranger($url){ $headers = array( "Range: bytes=0-32768" ); $curl = curl_init($url); curl_setopt($curl, CURLOPT_HTTPHEADER, $headers); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); return curl_exec($curl); curl_close($curl); }//curl设置 require dirname(__FILE__) . '/simple_html_dom.php'; //采用simple_html_dom.php分析HTML nod $url = 'http://www.huffingtonpost.com/'; $html = file_get_html($url); if($html->find('img')){ foreach($html->find('img') as $element) { $raw = ranger($element->src); $im = @imagecreatefromstring($raw); $width = @imagesx($im); $height = @imagesy($im); if($width>=200||$height>=200){ echo $element;//得出长大于大于200,宽大于等于200的图片 } } }
------解决方案--------------------
也许能走个弯路,减轻服务器网络压力。
服务器负责解析HTML数据,统计image标签信息,最后将收集的文本数据送回客户端。
加载图片由客户端来完成,只需读取width,height属性,就完全可以获取图片的原始大小。
好处多多,不过可能的麻烦是防盗链
------解决方案--------------------
顶楼上
PHP获取资源
javascript 取图片长和宽
------解决方案--------------------
读取并解析 2.8秒
读取图片(138个) 27秒
找到 7 个
仅从优化代码出发,应该油水不大
可考虑多路并发
------解决方案--------------------
读取并解析 3.6秒
启动读取图片进程(138个) 1.3秒
结果文件中记录数 7 个
- PHP code
http://s.huffpost.com/images/v/logos/v4/tagline.gif http://s.huffpost.com/images/v/logos/v4/homepage.gif?v9 http://i.huffpost.com/gen/559399/thumbs/r-OLBERMANN-huge.jpg http://s.huffpost.com/images/facebook_promo_connect.png?3 http://images.huffingtonpost.com/2012-04-04-michaeljfoxmarlo2SECOND.jpg http://images.huffingtonpost.com/2012-04-05-Screenshot20120405at9.40.24AM.jpg http://i.huffpost.com/gen/557914/thumbs/s-SCORSESE-large300.jpg
------解决方案--------------------
我觉得,让客户端加载的方案是可行的,
客户端再将符合要求的图片信息提交给服务器,服务器端再验证一次后保存。。。
另外32768是怎么得来的?1-200不够吗
------解决方案--------------------
学习! 是用PHP获取图片url后直接读取图片的头信息吗?
------解决方案--------------------
pinterest那个pin功能创意很好,而且技术很简单,就是书签一串js代码,然后你点这个书签就相当于往当前页面文档append入一个js文件,这个js文件怎么写,就很简单了,主要就是遍历document.getElementsByTagName('img')
------解决方案--------------------
138个照片并发,是不是就消耗了138个连接数
对
是否需要修改php.ini,增加连接数
否,连接是向外的,如果要改,也是对方改
CPU和内存开销如何
这个不太好测试
又,关于使用 js 判断的问题,由于他们没有给出代码,无法测试
自己写了两个方案都不理想,也就作罢了
用JS并发和直接PHP并发,2者从资源消耗角度来比,哪个会更少
资源消耗角度来比 都一样,都要完整的加载图片
不过前者是消耗客户端资源,后者是消耗服务器端资源
另外浏览器的机制不很了解,是否真的是并发也未可知
------解决方案--------------------
这段代码在我这里大约 1.8秒,不计算 file_get_html ( $url ) 时间
$res [] = $url ;//$temp;
这样就是网络地址了
他是保存为本地文件后用 getimagesize 获取尺寸的
他应该是通过 curl 并发的,这个机制我不太了解
------解决方案--------------------
但是 if(in_array($absUrl, $visited))continue; 这行报错。 Warning: in_array() expects parameter 2 to be array, null。相关文章
相关视频