python之xpath基础使用

程序员文章站 2022-07-14 11:32:56

...

XPath

XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言。XPath基于XML的树状结构，有不同类型的节点，包括元素节点，属性节点和文本节点，提供在数据结构树中找寻节点的能力。

什么是 XPath?

XPath 使用路径表达式在 XML 文档中进行导航
XPath 包含一个标准函数库
XPath 是 XSLT 中的主要元素
XPath 是一个 W3C 标准

Python中使用xpath

pip install lxml

import lxml
from lxml import etree

XPath Helper插件

chrome插件网：http://www.cnplugins.com/

添加插件

Ctrl + Shift + X打开或关闭插件

XPath 术语

节点（Node）

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

请看下面这个 XML 文档：

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

    <book>
        <title lang="en">Harry Potter</title>
        <author>J K. Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>

</bookstore>

基本值（或称原子值，Atomic value）

基本值是无父或无子的节点。

基本值的例子：

J K. Rowling

"en"

项目（Item）

项目是基本值或者节点。

节点关系

父（Parent）

每个元素以及属性都有一个父。

子（Children）

元素节点可有零个、一个或多个子。

同胞（Sibling）

拥有相同的父的节点

先辈（Ancestor）

某节点的父、父的父，等等。

后代（Descendant）

某个节点的子，子的子，等等。

XPath 语法

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：
python之xpath基础使用

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：
python之xpath基础使用

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

python之xpath基础使用

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

python之xpath基础使用
在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

python之xpath基础使用

选取若干路径

通过在路径表达式中使用"|"运算符，您可以选取若干个路径。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：
python之xpath基础使用

htmlFile = '''
        <ul>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li> 
    </ul>
    '''

    
html = lxml.etree.parse("filename.html") # 读取文件
html = lxml.etree.HTML(htmltext) # 直接加载
	
print(html.xpath("//li/@class")) # 取出li的所有节点class名称
print(html.xpath("//li/@text")) # 为空，如果包含这个属性，
print(html.xpath("//li/a")) # li下面5个节点，每个节点对应一个元素
print(html.xpath("//li/a/@href")) # 取出li的所有节点 a内部href名称
print(html.xpath("//li/a/@href=\"link3.html\"")) # 判断是有一个节点==link3.html
print(html.xpath("//li//span")) # 取出li下面所有的span
print(html.xpath("//li//span/@class")) # 取出li下面所有的span内部的calss
print(html.xpath("//li/a//@class")) # 取出li的所有节点内部节点a包含的class
print(html.xpath("//li")) # 取出所有节点
print(html.xpath("//li[1]")) # 取出第一个
print(html.xpath("//li[last()]")) # 取出最后一个
print(html.xpath("//li[last()-1]")) # 取出倒数第2个
print(html.xpath("//li[last()-1]/a/@href")) # 取出倒数第2个的a下面的href
print(html.xpath("//*[@text=\"3\"]")) # 选着text=3的元素
print(html.xpath("//*[@text=\"3\"]/@class")) # 选着text=3的元素
print(html.xpath("//*[@class=\"nimei\"]")) # 选着text=3的元素
print(html.xpath("//li/a/text()")) # 取出<>
print(html.xpath("//li[3]/a/span/text()")) # 取出内部<>数据

python之xpath基础使用

XPath

什么是 XPath?

Python中使用xpath

pip install lxml

XPath Helper插件

添加插件

XPath 术语

节点（Node）

基本值（或称原子值，Atomic value）

项目（Item）

节点关系

父（Parent）

子（Children）

同胞（Sibling）

先辈（Ancestor）

后代（Descendant）

XPath 语法

选取节点

谓语（Predicates）

选取未知节点

选取若干路径

Python时间序列处理之ARIMA模型的使用讲解

零基础写python爬虫之使用Scrapy框架编写爬虫

零基础写python爬虫之抓取糗事百科代码分享

python使用ORM之如何调用多对多关系

零基础写python爬虫之爬虫框架Scrapy安装配置

零基础写python爬虫之urllib2使用指南

零基础写python爬虫之打包生成exe文件

零基础写python爬虫之爬虫编写全记录

零基础写python爬虫之使用urllib2组件抓取网页内容

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers