javascript - 怎么使用CasperJs抓取网页？

程序员文章站 2022-05-24 10:01:17

...

在知乎上看到有个php爬虫的思路是这样写的：

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。

curl实现页面抓取，设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理

如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在多玩网这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。

第1、2点可以弄，当然我不用swoole。第3点中的casperJS不太懂，怎样用啊？

回复内容：

在知乎上看到有个php爬虫的思路是这样写的：

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。

curl实现页面抓取，设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理

如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在多玩网这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。

第1、2点可以弄，当然我不用swoole。第3点中的casperJS不太懂，怎样用啊？

你可以看它的文档。这里有例子http://docs.casperjs.org/en/latest/quickstart.html

简单讲casperjs是基于phantomjs的script，模拟浏览器的意思是它不需要浏览器来渲染页面，但是也可以来navigate, 对DOM进行操作什么的

javascript - 怎么使用CasperJs抓取网页？

回复内容：

零基础写python爬虫之使用urllib2组件抓取网页内容

Edge浏览器怎么使用网页批注和保存批注？

使用Python3编写抓取网页和只抓网页图片的脚本

一点浏览器怎么设置右键快速关闭网页一点浏览器右键快速关闭网页功能使用方法

怎么使用javascript深度拷贝一个数组

深度剖析使用python抓取网页正文的源码

谷歌浏览器怎么使用Adblock Plus插件去网页中的广告?

360浏览器怎么翻译网页 360浏览器网页翻译功能使用教程图解

php使用curl和正则表达式抓取网页数据示例

猎豹浏览器怎么下载视频文件？使用猎豹浏览器下载网页视频方法图解

javascript - 怎么使用CasperJs抓取网页？

回复内容：

零基础写python爬虫之使用urllib2组件抓取网页内容

Edge浏览器怎么使用网页批注和保存批注？

使用Python3编写抓取网页和只抓网页图片的脚本

一点浏览器怎么设置右键快速关闭网页 一点浏览器右键快速关闭网页功能使用方法

怎么使用javascript深度拷贝一个数组

深度剖析使用python抓取网页正文的源码

谷歌浏览器怎么使用Adblock Plus插件去网页中的广告?

360浏览器怎么翻译网页 360浏览器网页翻译功能使用教程图解

php使用curl和正则表达式抓取网页数据示例

猎豹浏览器怎么下载视频文件？使用猎豹浏览器下载网页视频方法图解

一点浏览器怎么设置右键快速关闭网页一点浏览器右键快速关闭网页功能使用方法