欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

记录pyquery选取不到原生标签问题

程序员文章站 2022-05-02 18:08:54
...

今天在爬取马蜂窝评论信息的过程中,发现使用pyquery时,无论如何都选取不到源代码中的原生标签,如:

print(doc('._j_commentlist .rev-list li'))

如上,我们要选取 class属性为_j_commentlist的节点内class属性为rev-txt的节点内的li标签,发现选取不到,只通过属性来选取则可以成功选取。

搜索一番后,得到解决方案,原来pyquery默认以xmlns格式来解析源码,这导致我们选取不到原生标签。我们只需指定解析格式为html即可成功选取,如下所示:

doc = pq(html,parser='html')
相关标签: python pyquery