爬虫技术 jsoup-1.11.1

程序员文章站 2022-05-05 14:48:48

...

Jsoup解析html方法，通常被人称之为爬虫技术，爬取网页数据。

1，需要的jar

爬虫技术 jsoup-1.11.1

Maven依赖：

<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.11.1</version>
</dependency>

2，Jsoup的应用API

2.1生成Document文件（本身继承Element）。

A，html字符串转换成一个Document对象：

String html = "<html><head><title>HTML</title></head>"  
      + "<body><p>HTML超文本标记语言</p></body></html>";  
Document doc = Jsoup.parse(html);

B，将一个网页html转换成一个Document对象：

Document doc1 = Jsoup.parse(new URL("http://www.baidu.com"), 5000);  
Document doc2 = Jsoup.connect("<url>").timeout(15000).cookie("<key>","<value>").ignoreHttpErrors(true).followRedirects(true).validateTLSCertificates(false).header("<headerParamKey>","<headerParamValue>").data("<paramKey>","<paramValue>").requestBody("<requestBody>").get();//GET请求，也有POST请求

C，将本地的一个html文件，转换成一个Document对象：

File file = new File("E:/resource/html/index.html");  
Document doc1 = Jsoup.parse(file, "UTF-8");

2.2，遍历一个文档Document。

A，DOM方法

查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素数据

attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()

B，选择器语法查找数据

Selector选择器概述

tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 <fb:name> 元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i)\.(png|jpe?g)]
*: 这个符号将匹配所有元素

Selector选择器组合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

伪选择器selectors

:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素
:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素
:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含给定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素

2.3，从元素中抽取属性，文本和html。

要取得一个属性的值，可以使用Node.attr(String key) 方法
对于一个元素中的文本，可以使用Element.text()方法
对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)

上一篇： htmlunit带来的大坑插入数据Mysql 导致CPU消耗爆棚100%

下一篇： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.toString(Ljava

爬虫技术 jsoup-1.11.1

元素数据

Selector选择器组合使用

伪选择器selectors

Android 换肤技术资料整理

培训机构自建视频课程销售平台的技术方案

APS硬盘保护技术全介绍

山东职业学院改名山东职业技术大学：山东职业学院升格本科获教育厅公示官宣！

10 行Python 代码实现 AI 目标检测技术【推荐】

Ajax无刷新技术实现省市县三级联动下拉菜单--Asp.Net

Java UrlRewriter伪静态技术运用深入分析

站长吐槽：头条搜索爬虫暴力抓取网站内容

基于nodejs 的多页面爬虫实例代码

AI技术彰显实力，科大讯飞电梯智能语音解决方案落地杭州办公楼