Python 爬虫 —— 网页内容解析(lxml)
程序员文章站
2022-07-13 12:30:08
...
0. xpath 语法
-
找到所有
<img src=....>
图像的链接:xpath = './/img/@src' img_urls = html.xpath(xpath)
- @修饰节点的属性;
1. lxml
from lxml import etree
-
etree 下的 HTML 对象,其构造函数接受 requests.request 的返回值对象:
url = ... user_agent = ... headers = {'User-Agent' : user_agent} req = requests.request(url=url, headers=headers) html = etree.HTML(req.text)
2. 方法
xpath定位中starts-with、contains和text()的用法
- starts-with
- //input[starts-with(@name, ‘name1’)]:查找name属性中开始位置包含’name1’关键字的 input 元素
- contains
- //input[contains(@name,’na’)] 查找name属性中包含na关键字的input元素
- text()
- 百度搜索
- xpath写法为 //a[text()=’百度搜索’] ,//a[contains(text(),”百度搜索”)]
上一篇: xen的虚拟桥接网络配置