入坑爬虫(八)数据提取之xpath

程序员文章站 2024-01-12 19:42:10

...

lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息

认识xml

知识点：
- html和xml的区别
- xml中各个元素的的关系和属性

入坑爬虫(八)数据提取之xpath

xpath中节点选择的工具

Chrome插件 XPath Helper
- 下载地址：https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密码:337b
Firefox插件 XPath Checker

注意：这些工具是用来学习xpath语法的，他们都是从elements中匹配数据，elements中的数据和url地址对应的响应不相同，所以在代码中，不建议使用这些工具进行数据的提取

xml的树结构

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title> 
  <author>Giada De Laurentiis</author> 
  <year>2005</year> 
  <price>30.00</price> 
</book>
<book category="CHILDREN">
  <title lang="en">Harry Potter</title> 
  <author>J K. Rowling</author> 
  <year>2005</year> 
  <price>29.99</price> 
</book>
<book category="WEB">
  <title lang="en">Learning XML</title> 
  <author>Erik T. Ray</author> 
  <year>2003</year> 
  <price>39.95</price> 
</book>
</bookstore>

上面的xml内容可以表示为下面的树结构
入坑爬虫(八)数据提取之xpath

xpath的节点关系
每个XML的标签我们都称之为节点，其中最顶层的节点称为根节点。

入坑爬虫(八)数据提取之xpath
xpath中节点的关系

xpath语法
我们将在下面的例子中使用这个 XML 文档。

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

使用chrome插件选择标签时候，选中时，选中的标签会添加属性class=”xh-highlight”

下面列出了最有用的表达式：
入坑爬虫(八)数据提取之xpath