PHP执行采集任务，结果死机，但是每次执行一条却很快

程序员文章站 2022-06-12 14:57:27

...

【求助】PHP执行采集任务，结果死机，但是每次执行一条却很快。
PHP执行采集任务，程序写的步骤是
1.先从数据库中提取出url，
2.php远程获取URL标题title，通过http下载远程网址。
3.下载完之后下载另外一个网站B的数据，http。
4.下载完之后再次下载另外一个站C的数据，http。
5.每条记录总共下载远程四个网站A、B、C、D的数据后更新数据表的对应记录，然后循环下一条记录。

结果的现象是：
如果刷新一次页面一次10条都一直在加载，但是却始终都没有完成一条（三个小时候过去了，一条都没有完成）。
但是如果每次只操作一条，却很快的就完成了。一直难以明白，代码都没有改过。

------解决方案--------------------
是否是php超时了或者内存满了？

是否打开error.log查看下错误日志呢？

写这种采集程序，最重要的是判断程序运行错误的时候怎么处理。
------解决方案--------------------
多数都是代码问题...没代码没真相
------解决方案--------------------
在每一个都写log入文件，看到哪一步停止了。
------解决方案--------------------

引用:

在每一个都写log入文件，看到哪一步停止了。

正解
------解决方案--------------------
你这个
一条也完不成的一次10条的代码
和
一条很快完成的一次一条的代码

到底有何不同之处?

------解决方案--------------------
哪里的服务器？先别解析一下DNS。

------解决方案--------------------
我是说siteA，也是本地的？先别采集。直接运行siteA的相应脚本，需要多少时间？
------解决方案--------------------
你没有给出具体的代码，不能给出具体的建议
不过就是给出了代码，也不一定有心情去看和测试
对此类应用提点我哥个人意见：
1、通常页面中都有返回到首页，返回到栏目之类的连接。
应注意排除，否则极易造成死循环
2、页面采集程序应是单一的
即运行一次，采集一个页面
3、采集控制程序用于调度页面采集程序
可用 fsockopen 打开页面采集程序后即可返回，目标页url只作为参数传递给页面采集程序
这样可就模拟了一个多进程系统
4、具体是实现时以数据库为中介，所有从页面中析出的url都入库（当然要排重）
采集控制程序读取数据库，以决定是否继续采集和每次采集的规模
------解决方案--------------------

引用:

用的是dedecms的下载的类

换个类试试，不要用dedecms集成的。
网上找一下类似功能的function或者CLASS。
------解决方案--------------------

引用:

引用:引用:用的是dedecms的下载的类
换个类试试，不要用dedecms集成的。
网上找一下类似功能的function或者CLASS。

其实的discuz的curl 和 fsocket也不行，会被有的服务器判断出来是非正常访问。只有dede的那个类成功的最多。。其他的也试了，也是很慢！
……

内牛满面....师兄你成仙了啊～～

自己写个采集的curl 封装一下有多难哪...采集其实麻烦就麻烦在各种正则上的分析校对.
------解决方案--------------------
就是，二次开发没那么难。你到底要怎么样的功能？把URL和要求贴出来，帮你写一个function。
------解决方案--------------------
网络问题是影响采集速度的最主要原因。
你先ping一下，看看响应时间是多少。

别用dedecms的那个类，自己用curl写个，很简单的。
给每个请求设置timeout。别拿自己的pc机跑，找一台配置高的服务器去跑，开多个进程，把你的任务分类，这样可以提高好几倍的效率。
------解决方案--------------------

引用: