Python 爬虫 —— 网页内容解析（lxml）

程序员文章站 2022-07-13 12:30:08

...

0. xpath 语法

from lxml import etree

etree 下的 HTML 对象，其构造函数接受 requests.request 的返回值对象：

url = ...
user_agent = ...
headers = {'User-Agent' : user_agent}
req = requests.request(url=url, headers=headers)

html = etree.HTML(req.text)

starts-with
- //input[starts-with(@name, ‘name1’)]：查找name属性中开始位置包含’name1’关键字的 input 元素
contains
- //input[contains(@name,’na’)] 查找name属性中包含na关键字的input元素
text()
- 百度搜索
- xpath写法为 //a[text()=’百度搜索’] ，//a[contains(text(),”百度搜索”)]