python爬虫：使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容

程序员文章站 2022-06-08 16:31:13

...

在此先感谢https://blog.csdn.net/weixin_43790560/article/details/86617630这位博主，详细的过程，收益匪浅

这几天一直在研究requests_html，这是一个超级好用的工具，同是实现爬取一样的内容，却比requests少很多代码，实现起来更简单。

今天我也爬取网站：https://cpppatterns.com/patterns/copy-range-of-elements.html部分代码，与前面那位博主过程有点不同，不分方法，用到不同的模块，不同的思路，没有好坏，只是为了学习。

（代码部分指的是如下图黑框中的代码）

python爬虫：使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容

详细的分析过程请参数上面提到的那个页面：

https://blog.csdn.net/weixin_43790560/article/details/86617630

在此我只帖上完整代码：

from requests_html import HTMLSession

session = HTMLSession()
url = 'https://cpppatterns.com/patterns/copy-range-of-elements.html'
r = session.get(url)
data=r.html.find('tr > td:nth-child(2) > code>span')#这种是find通过css选择器方式获取元素
# data = r.html.xpath('//tr/td[2]/code/span')  # 此种通过xpath方法获取元素

for c in data:  # 通过循环方法猎取
    cc = c.text
    print(cc)