记录pyquery选取不到原生标签问题
程序员文章站
2022-05-02 18:08:54
...
今天在爬取马蜂窝评论信息的过程中,发现使用pyquery时,无论如何都选取不到源代码中的原生标签,如:
print(doc('._j_commentlist .rev-list li'))
如上,我们要选取 class属性为_j_commentlist的节点内class属性为rev-txt的节点内的li标签,发现选取不到,只通过属性来选取则可以成功选取。
搜索一番后,得到解决方案,原来pyquery默认以xmlns格式来解析源码,这导致我们选取不到原生标签。我们只需指定解析格式为html即可成功选取,如下所示:
doc = pq(html,parser='html')
上一篇: 解析库的学习小结(3)pyquery学习
下一篇: python爬虫爬取豆瓣读书
推荐阅读