欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python爬虫:使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容

程序员文章站 2022-06-08 16:31:13
...

在此先感谢https://blog.csdn.net/weixin_43790560/article/details/86617630这位博主,详细的过程,收益匪浅

这几天一直在研究requests_html,这是一个超级好用的工具,同是实现爬取一样的内容,却比requests少很多代码,实现起来更简单。

今天我也爬取网站:https://cpppatterns.com/patterns/copy-range-of-elements.html部分代码,与前面那位博主过程有点不同,不分方法,用到不同的模块,不同的思路,没有好坏,只是为了学习。

(代码部分指的是如下图黑框中的代码)

python爬虫:使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容

详细的分析过程请参数上面提到的那个页面:

https://blog.csdn.net/weixin_43790560/article/details/86617630

在此我只帖上完整代码:

from requests_html import HTMLSession

session = HTMLSession()
url = 'https://cpppatterns.com/patterns/copy-range-of-elements.html'
r = session.get(url)
data=r.html.find('tr > td:nth-child(2) > code>span')#这种是find通过css选择器方式获取元素
# data = r.html.xpath('//tr/td[2]/code/span')  # 此种通过xpath方法获取元素

for c in data:  # 通过循环方法猎取
    cc = c.text
    print(cc)

 

相关标签: python