欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

写爬虫过程中的常见问题与错误(持续更新)

程序员文章站 2024-01-19 17:08:04
...

requests

错误一:网页出现乱码写爬虫过程中的常见问题与错误(持续更新)

出现乱码的原因是因为网页解码过程中没有设置如何编码,使用如下代码即可:

html = requests.get(url,headers = headers)
html.encoding = 'gbk'#定义编码方式

错误二:InvalidHeader: Invalid return character or leading space in header: User-Agent

对于初学爬虫的小伙伴而言,这非常令人摸不着头脑,我们来看看错误的headers:

headers = {
    'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/#### (KHTML, like Gecko) Chrome##/77.0.#####.90 Safari/########'
}
#这里注释掉了一些数值,防止一些安全问题

其实很难发现问题在哪,但事实上是因为‘ Mozilla’之前多了个空格,把空格删去即可

错误三:requests请求不到解析页面的数据

很多时候我们会发现requests的text内容并不是我们所需要的,这是由于该部分内容是由js文件渲染出来的
我们需要在Network的检查页面中的js文件进行查看response属性,如下图所示
写爬虫过程中的常见问题与错误(持续更新)
发现response中是我们需要获取的内容.
写爬虫过程中的常见问题与错误(持续更新)
我们再通过其Headers的属性,查看我们需要get的url和相应的Headers,如下图所示
写爬虫过程中的常见问题与错误(持续更新)