如何用php 编写网络爬虫?
程序员文章站
2024-02-11 12:24:22
...
如何用PHP语言编写网络爬虫?
1.别跟我说PHP不适合干这个,我不想为了写爬虫专门学一门新的语言,我知道它能实现
2.我又一定的PHP编程基础,熟悉数据结构与算法,有一般的网络基础知识,比如TCP/IP协议等概念
3.能否提供具体书籍名称,网络文章名
4.我可以贪心的求源码么?
谢谢!
有个问题就是老被封, 还在想怎么解决...
还有就是太慢了... 单线程做的. 我看投票最多的答案还挺好的。准备继续改造改造。 php模拟登录教务系统,测试时显示登录成功但是页面没有跳转出来 最简单的用正则表达式+get_file_contents即可实现爬虫
1.别跟我说PHP不适合干这个,我不想为了写爬虫专门学一门新的语言,我知道它能实现
2.我又一定的PHP编程基础,熟悉数据结构与算法,有一般的网络基础知识,比如TCP/IP协议等概念
3.能否提供具体书籍名称,网络文章名
4.我可以贪心的求源码么?
谢谢!
回复内容:
- pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms,开200个进程,可以实现每秒400个页面的抓取。
- curl实现页面抓取,设置cookie可以实现模拟登录
- simple_html_dom 实现页面的解析和DOM处理
- 如果想要模拟浏览器,可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用
有个问题就是老被封, 还在想怎么解决...
还有就是太慢了... 单线程做的. 我看投票最多的答案还挺好的。准备继续改造改造。 php模拟登录教务系统,测试时显示登录成功但是页面没有跳转出来 最简单的用正则表达式+get_file_contents即可实现爬虫
上一篇: 微信支付开发教程(一)微信支付URL配置_PHP教程
下一篇: PHP实例:从数组里筛选出重复的数据