关于xpath解析出空列表的原因
程序员文章站
2022-05-25 09:56:41
第一种,网上搜的很多关于这方面的内容都是与tbody标签有关,解决方法无非是去掉这个标签第二种,网页标签class,id属性等一定要注意看后面有没有空格第三种,xpath表达式正确,仍然解析不出,一定要查看对应网址的网页源码,即检查工具response部分,看源码是否是如下样式!该样式代表源码被注释掉,所以即使xpath表达式正确也仍然解析不到,解决方法有两种,其一可以更换比较低级的user-agent ,再者是 def parse_data(self,data): #提取数据一切以...
第一种,网上搜的很多关于这方面的内容都是与tbody标签有关,解决方法无非是去掉这个标签
第二种,网页标签class,id属性等一定要注意看后面有没有空格
第三种,xpath表达式正确,仍然解析不出,一定要查看对应网址的网页源码,即检查工具response部分,看源码是否是如下样式!
该样式代表源码被注释掉,所以即使xpath表达式正确也仍然解析不到,解决方法有两种,其一可以更换比较低级的user-agent ,再者是
def parse_data(self,data):
#提取数据一切以源码为准,源码变绿表示被注释掉,可以更换低级ua,第二种如下
data = data.decode().replace('<!--','').replace('-->','')
tree = etree.HTML(data)
el_list = tree.xpath('//li[@class=" j_thread_list clearfix"]/div/div[2]/div[1]/div[1]/a')
本人因为正在学习爬虫,此篇文章可以帮一下小白,写的不好大佬勿喷,若有不对请指出方便修改谢谢
本文地址:https://blog.csdn.net/Sanzy_k/article/details/107485026
推荐阅读