Xpath的使用

程序员文章站 2022-05-19 14:20:01

...

from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
# 调用HTML类进行初始化，etree模块可以自动修改HTML文本
html = etree.HTML(text)
# 输出修改后的HTML代码，结果是bytes类型
result = etree.tostring(html)
# 利用decode将其转化成str类型
print(result.decode('utf-8'))

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time    : 2019/3/25 14:42
# @Author  : QWL
# @Email   : [email protected]
# @File    : 所有节点.py
# @Software: PyCharm
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
# 获取所有节点
result = html.xpath('//*')
print(result)
# 所有li节点
result = html.xpath('//li')
print(result)
print(result[0])

# 子节点 此处的/用于选取直接子节点
result = html.xpath('//li/a')
print(result)
# 子节点 获取所有子节点用'//'
result = html.xpath('//ul//a')
print(result)

# 父节点 首先选中href属性为link4.html的a节点，然后再获取其父节点，然后再获取其class属性
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)
# 也可以通过parent::来获取父节点
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

# 属性匹配
# 这里如果要选取class为item-1的li节点
result = html.xpath('//li[@class="item-0"]')
print(result)

# 文本获取
# 获取前面li节点中a的文本
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)
# 选取li所有子孙节点的文本
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

# 属性获取
# 获取所有li节点下所有a节点的href属性
result = html.xpath('//li/a/@href')
print(result)

# 属性多值匹配 contains()方法，第一个参数传入属性名称，第二个参数传入属性值
from lxml import etree
text = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)

# 多属性匹配
# 根据多个属性确定一个节点，这时就需要同时匹配多个属性
text = '''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

# 按序选择
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
# 第一次选择时，我们选取了第一个li节点，中括号中传入数字1即可。注意，这里和代码中不同，序号是以1开头的，不是以0开头。
result = html.xpath('//li[1]/a/text()')
print(result)
# 第二次选择时，我们选取了最后一个li节点，中括号中传入last()即可，返回的便是最后一个li节点。
result = html.xpath('//li[last()]/a/text()')
print(result)
# 第三次选择时，我们选取了位置小于3的li节点，也就是位置序号为1和2的节点，得到的结果就是前两个li节点。
result = html.xpath('//li[position()<3]/a/text()')
print(result)
# 第四次选择时，我们选取了倒数第三个li节点，中括号中传入last()-2即可。因为last()是最后一个，所以last()-2就是倒数第三个。
result = html.xpath('//li[last()-2]/a/text()')
print(result)

# 节点轴选择
# XPath提供了很多节点轴选择方法，包括获取子元素、兄弟元素、父元素、祖先元素等

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html"><span>first item</span></a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
# 第一次选择时，我们调用了ancestor轴，可以获取所有祖先节点。其后需要跟两个冒号，然后是节点的选择器，这里我们直接使用*，表示匹配所有节点，因此返回结果是第一个li节点的所有祖先节点，包括html、body、div和ul
result = html.xpath('//li[1]/ancestor::*')
print(result)
# 第二次选择时，我们又加了限定条件，这次在冒号后面加了div，这样得到的结果就只有div这个祖先节点了。
result = html.xpath('//li[1]/ancestor::div')
print(result)
# 第三次选择时，我们调用了attribute轴，可以获取所有属性值，其后跟的选择器还是*，这代表获取节点的所有属性，返回值就是li节点的所有属性值。
result = html.xpath('//li[1]/attribute::*')
print(result)
# 第四次选择时，我们调用了child轴，可以获取所有直接子节点。这里我们又加了限定条件，选取href属性为link1.html的a节点。
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result)
# 第五次选择时，我们调用了descendant轴，可以获取所有子孙节点。这里我们又加了限定条件获取span节点，所以返回的结果只包含span节点而不包含a节点。
result = html.xpath('//li[1]/descendant::span')
print(result)
# 第六次选择时，我们调用了following轴，可以获取当前节点之后的所有节点。这里我们虽然使用的是*匹配，但又加了索引选择，所以只获取了第二个后续节点。
result = html.xpath('//li[1]/following::*[2]')
print(result)
# 第七次选择时，我们调用了following-sibling轴，可以获取当前节点之后的所有同级节点。这里我们使用*匹配，所以获取了所有后续同级节点。
result = html.xpath('//li[1]/following-sibling::*')
print(result)

上一篇： XPath库的使用

下一篇：关于强迫症测试

Xpath的使用

JavaEE基础day02 1.定义Java中的变量四类八种 2.变量定义和使用的注意事项 3.数据类型的转换、强制数据类型转换4.算数运算符、比较运算符、逻辑运算符、赋值运算符、三元运算符

Java学习（五）——Java中的运算符

Shell中去除字符串里的空格或指定字符的方法

python try except 捕获所有异常的实例

Java入门五常用的运算符

opencv提取旋转矩形区域的图像（将旋转矩形区域图像旋转成水平）

05. 数组的基本运算

asp.net core 使用 AccessControlHelper 控制访问权限

webpack3、4的基本的使用方法

Qt4.7中默认的构造函数

Xpath的使用

JavaEE基础day02 1.定义Java中的变量 四类八种 2.变量定义和使用的注意事项 3.数据类型的转换、强制数据类型转换4.算数运算符、比较运算符、逻辑运算符、赋值运算符、三元运算符

Java学习（五）——Java中的运算符

Shell中去除字符串里的空格或指定字符的方法

python try except 捕获所有异常的实例

Java入门五 常用的运算符

opencv提取旋转矩形区域的图像（将旋转矩形区域图像旋转成水平）

05. 数组的基本运算

asp.net core 使用 AccessControlHelper 控制访问权限

webpack3、4的基本的使用方法

Qt4.7中 默认的构造函数

JavaEE基础day02 1.定义Java中的变量四类八种 2.变量定义和使用的注意事项 3.数据类型的转换、强制数据类型转换4.算数运算符、比较运算符、逻辑运算符、赋值运算符、三元运算符

Java入门五常用的运算符

Qt4.7中默认的构造函数