请教寻找PHP采集大量网页高效可行的方法

程序员文章站 2022-06-04 17:18:32

...

想用PHP的CURL采集虾米网的音乐信息。
但是很慢，采集到50个左右的时候就会停掉，然后网页卡住，第二次运行的时候就无法采集，应该是根据IP识别后，不允许采集了吧，所以基本上采集数据非常慢。
请问这种大数据的采集应该怎么做？
也有可能是我代码的问题。
以下是部分代码。

$j=0;	//起始ID	$id = 200000;	//采集1000条	//保存采集的数据	$data = array();	while($j		preg_match('/(.*)/Us', $content,$matches);		$data[$id]['lrc'] =  empty($matches[1])?' ':addslashes($matches[1]);		//分享 分享(3269)		preg_match('/分享\((\d+)\)/Us', $content,$matches);		$data[$id]['share'] =  empty($matches[1]) ? 0:$matches[1];		//评论次数 920		preg_match('/
(\d+)/Us', $content,$matches);		$data[$id]['comment_count'] =  empty($matches[1])?0:$matches[1];		//入库操作		//print_r($data);		//_____________________________		$j++;		usleep(3000);	}  



  
 
 
回复讨论(解决方案)
   亲，用snoopy类吧 
   亲用 Ruby 或者 Go 吧  

 开玩笑，就算你要跑好歹你也弄成命令行的模式跑呀.... 
   应该是xiami.com服务器有限制，禁止采集吧  

 1，每个url请求只采10-20打，然后做个跳转在继续采集，这样也可以防止页面超时，如果你在虚机上运行，长时间点用cpu，进程可能会被kill.  

 2，每次url请求header中的user-agent，cookies，最好都能改一下。  

 3，如果还不行，用火车头试试吧！  

 4，如果火车也不行，那就放弃这个站吧！ 
   把foreach拆分成循环执行同一页面。  
 第一次浏览器或者cronrab定时执行  http://localhost/caiji.php?num=1  每次完成后，$_GET['num']+1；curl 重复l执行同一脚本，当$_GET['num']==1000后，退出，不再执行curl。  


if($_GET['num']){$url = 'http://www.xiami.com/song/'.$_GET['num'];//你的代码$_GET['num'])++;}if($_GET['num']

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。
相关文章
相关视频

相关标签： php 网页方法寻找请教

上一篇：递归

下一篇：归并排序

请教 寻找PHP采集大量网页高效可行的方法

回复讨论(解决方案)

请教 寻找PHP采集大量网页高效可行的方法

请问 寻找PHP采集大量网页高效可行的方法

请教 寻找PHP采集大量网页高效可行的方法

请教寻找PHP采集大量网页高效可行的方法

请教寻找PHP采集大量网页高效可行的方法

请问寻找PHP采集大量网页高效可行的方法

请教寻找PHP采集大量网页高效可行的方法