写爬虫过程中的常见问题与错误(持续更新)
程序员文章站
2024-01-19 17:08:04
...
requests
错误一:网页出现乱码
出现乱码的原因是因为网页解码过程中没有设置如何编码,使用如下代码即可:
html = requests.get(url,headers = headers)
html.encoding = 'gbk'#定义编码方式
错误二:InvalidHeader: Invalid return character or leading space in header: User-Agent
对于初学爬虫的小伙伴而言,这非常令人摸不着头脑,我们来看看错误的headers:
headers = {
'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/#### (KHTML, like Gecko) Chrome##/77.0.#####.90 Safari/########'
}
#这里注释掉了一些数值,防止一些安全问题
其实很难发现问题在哪,但事实上是因为‘ Mozilla’之前多了个空格,把空格删去即可
错误三:requests请求不到解析页面的数据
很多时候我们会发现requests的text内容并不是我们所需要的,这是由于该部分内容是由js文件渲染出来的
我们需要在Network的检查页面中的js文件进行查看response属性,如下图所示
发现response中是我们需要获取的内容.
我们再通过其Headers的属性,查看我们需要get的url和相应的Headers,如下图所示