Jsoup+HtmlUnit 爬虫

程序员文章站 2022-05-05 14:21:36

...

最近学习java的爬虫，爬取双色球网站的内容，刚开始只用了Jsoup，可以爬取到全部的内容，还以为自己的爬虫技术OK了；结果双色球网站更新了，就爬取不到了，只能继续学习；

因为网站的数据是JS动态加载的，所以需要解析JS；百度学习了好几篇文章，自己实践了一下，Jsoup+HtmlUnit搞定问题；

Jsoup版本：jsoup-1.10.3.jar

HtmlUnit版本：htmlunit-2.23；

WebClient webclient = new WebClient();
webclient.getOptions().setJavaScriptEnabled(false);
//启用JS，测试删除可以也可以，估计默认为true，但是不能设置为false；
		
Document doc = null;
try {
	HtmlPage page = webclient.getPage(url);
	doc = Jsoup.parse(page.asXml());
	} catch (IOException e) {
	   // TODO 自动生成的 catch 块
	e.printStackTrace();
	}

再通过 doc.select("selector，可以通过chrome浏览器开发者模式获取") 就可以获取到需要的定位；

暂时学习到这，其它方面继续学习吧。

Jsoup+HtmlUnit 爬虫

java实现爬虫爬网站图片的实例代码

python解决网站的反爬虫策略总结

python实现简单爬虫功能的示例

Python网络爬虫项目：内容提取器的定义

Python爬虫爬取美剧网站的实现代码

使用Python多线程爬虫爬取电影天堂资源

教你如何编写简单的网络爬虫

一些常用的Python爬虫技巧汇总

Python 制作糗事百科爬虫实例

Python 爬虫模拟登陆知乎