爬虫–HtmlUnit
程序员文章站
2022-03-02 21:09:43
...
爬虫–HtmlUnit
一、HtmlUnit简介
HtmlUnit是开源的网页分析工具,它模仿浏览器的运行,可以用于网页的抓取。
二、特点
优点:
- 模仿浏览器运行,可以click相关网页操作;
- 支持css、js运行;
- 有相应的文档解析方法;
缺点:
- 速度慢,需要页面渲染等各种操作;
- 对jquery等的支持不是很理想;
三、实例
3.1、添加maven依赖
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.24</version>
</dependency>
3.2、代码实例
public class HtmlUnitCrawlerMain {
public static void main(String[] args) throws Exception {
htmlunitCrawler();
}
static void htmlunitCrawler() throws Exception {
String url = "http://www.ifeng.com/";
WebClient webClient = new WebClient(BrowserVersion.CHROME);
WebClientOptions options = webClient.getOptions();
options.setTimeout(5000);
options.setThrowExceptionOnScriptError(false);
options.setCssEnabled(false);
HtmlPage page = webClient.getPage(url);
List<HtmlElement> eles = (List<HtmlElement>) page.getByXPath("//*[@id=\"headLineDefault\"]/h1/a");
if(Objects.nonNull(eles) && eles.size()>0){
String result = eles.get(0).asText();
System.out.println("ifeng headline is : " + result);
}
}
}
下一篇: 为安卓APP设置统一风格的界面切换动画