欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python 爬虫 —— 网页内容解析(lxml)

程序员文章站 2022-07-13 12:30:08
...

0. xpath 语法

  • 找到所有 <img src=....> 图像的链接:

    xpath = './/img/@src'
    img_urls = html.xpath(xpath)
    • @修饰节点的属性;

1. lxml

from lxml import etree
  • etree 下的 HTML 对象,其构造函数接受 requests.request 的返回值对象:

    url = ...
    user_agent = ...
    headers = {'User-Agent' : user_agent}
    req = requests.request(url=url, headers=headers)
    
    html = etree.HTML(req.text)

2. 方法

xpath定位中starts-with、contains和text()的用法

  • starts-with
    • //input[starts-with(@name, ‘name1’)]:查找name属性中开始位置包含’name1’关键字的 input 元素
  • contains
    • //input[contains(@name,’na’)] 查找name属性中包含na关键字的input元素
  • text()
    • 百度搜索
    • xpath写法为 //a[text()=’百度搜索’] ,//a[contains(text(),”百度搜索”)]