java爬虫抓取js/ajax动态生成的网页

程序员文章站 2022-03-20 18:28:32

...

最近一段时间，公司要写一个爬虫项目，遇到一些js或者ajax动态生成的网页，在网上找了一下，发现webdriver比较靠谱，至于htmlunit测试了一些网站直接抛异常，可能对于js支持的不是特别好。

WebDriver一般来说有两方式：本地diver和远程diver。由于爬虫最终会部署到linux服务器，只能在命令行运行，好像是装不了浏览器，所以本地driver的流程走不通，只能尝试远程driver。还好，发现一个phantomjs的webdriver，可以在linux*面下运行，于是选择它作为处理js动态生成网页的解决手段。

下载去官网：http://phantomjs.org/download.html，找到对应版本下载。解压即安装。进入bin目录，执行phantomjs，需要带上启动参数，执行远程driver的地址和端口。phantomjs --webdriver 127.0.0.1:10025。

java连接：

WebDriver driver = new RemoteWebDriver("http://127.0.0.1:10025", DesiredCapabilities.phantomjs());
driver.get("http://www.iteye.com");

上一篇： python用PIL/cv2读取存储图片

下一篇： java 通过 webdriver 操作浏览器-chrome

java爬虫抓取js/ajax动态生成的网页

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

利用js将ajax获取到的后台数据动态加载至网页中的方法

抓取Js动态生成数据且以滚动页面方式分页的网页

Scrapy框架结合Spynner采集需进行js,ajax动态加载的网页并提取网页信息（以采集微信公众号文章列表为例）

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)

Python 爬虫如何获取 JS 生成的 URL 和网页内容？

Python3如何抓取JS动态生成的html网页功能实现示例

java爬虫webmagic 案例爬取动态（ajax+js) 网站京东售价格

HtmlUnit爬取Ajax动态生成的网页以及自动调用页面javascript函数

htmlunit爬取Ajax动态生成的网页获取不到生成后的结果的问题的解决