PHP单线程实现并行抓取网页

程序员文章站 2022-05-03 15:44:17

...

PHP单线程实现并行抓取网页

　　本PHP教程将模拟并行抓取多个页面信息的过程，关键在于单线程的并行处理。

　　一般情况下，大家写抓取多个页面信息的程序都采用串行方案，但获取周期过长，不实用。于是我想到用curl 去并行抓取。但是，最后发现，那个虚拟服务器上没有curl，这真是让人纠结。于是，我决定改变思路，用单个线程也实现多个线程的效果。我想对网络编程有点

　　了解的人肯定知道IO复用这个概念，当然PHP上也是支持的，而且，内部支持，不需要任何扩展。

　　可能有很多年编程经验的人对PHP的stream 函数可能不太了解。PHP的压缩文件流，文件流，tcp 协议下的应用都封装成一个stream。所以，读本地文件

　　和读网络文件没有任何的差别。说了这样多，我想大家都基本上明白了，直接贴上代码吧：

　　代码比较的粗糙，如果大家要实际用的话，还是要处理一些细节问题。

　　代码

　　function http_get_open($url)

　　{

　　$url = parse_url($url);

　　if (empty($url['host'])) {

　　return false;

　　}

　　$host = $url['host'];

　　if (empty($url['path'])) {

　　$url['path'] = "/";

　　}

　　$get = $url['path'] . "?" . @$url['query'];

　　$fp = stream_socket_client("tcp://{$host}:80", $errno, $errstr, 30);

　　if (!$fp) {

　　echo "$errstr ($errno)
\n";

　　return false;

　　} else {

　　fwrite($fp, "GET {$get} HTTP/1.0\r\nHost: {$host}\r\nAccept: */*\r\n\r\n");

　　}

　　return $fp;

　　}

　　function http_multi_get($urls)

　　{

　　$result = array();

　　$fps = array();

　　foreach ($urls as $key => $url)

　　{

　　$fp = http_get_open($url);

　　if ($fp === false) {

　　$result[$key] = false;

　　} else {

　　$result[$key] = '';

　　$fps[$key] = $fp;

　　}

　　while (1)

　　{

　　$reads = $fps;

　　if (empty($reads)) {

　　break;

　　}

　　if (($num = stream_select($reads, $w = null, $e = null, 30)) === false ) {

　　echo "error";

　　return false;

　　} else if ($num > 0) {//can read

　　foreach ($reads as $value)

　　{

　　$key = array_search($value, $fps);

　　if (!feof($value)) {

　　$result[$key] .= fread($value, 128);

　　} else {

　　unset($fps[$key]);

　　}

　　} else {//time out

　　echo "timeout";

　　return false;

　　}

　　foreach ($result as $key => &$value)

　　{

　　if ($value) {

　　$value = explode("\r\n\r\n", $value, 2);

　　}

　　return $result;

　　}

　　$urls = array();

　　$urls[] = "http://www.qq.com";

　　$urls[] = "http://www.sina.com.cn";

　　$urls[] = "http://www.sohu.com";

　　$urls[] = "http://www.blue1000.com";

　　//并行的抓取

　　$t1 = microtime(true);

　　$result = http_multi_get($urls);

　　$t1 = microtime(true) - $t1;

　　var_dump("cost: " . $t1);

　　//串行的抓取

　　$t1 = microtime(true);

　　foreach ($urls as $value)

　　{

　　file_get_contents($value);

　　}

　　$t1 = microtime(true) - $t1;

　　var_dump("cost: " . $t1);

　　最后运行的结果：

　　string 'cost: 3.2403128147125' (length=21)

　　string 'cost: 6.2333900928497' (length=21)

　　基本上是两倍的效率，当然，发现新浪非常的慢，要2.5s 左右，

　　基本上是被他给拖累了，360只要 0.2s

　　如果，所有网站都差不多的速度，并行的数目更大，那么差的倍数也就越大。

上一篇： js 数据类型转换总结笔记_javascript技巧

下一篇：关于js的规范

PHP单线程实现并行抓取网页