爬虫中遇到中文乱码解决方法

程序员文章站 2022-03-15 15:09:13

1.requests设置响应的编码response.encoding = response.apparent_encoding2.scrapy中间件中添加如下代码def process_response(self, request, response, spider): response = HtmlResponse( url=response.url, body=response.body, encoding='GB2312' )...

1.requests

设置响应的编码

response.encoding = response.apparent_encoding

2.scrapy

中间件中添加process_response代码

from scrapy.http import HtmlResponse
class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        ua = random.choice(USER_AGENT_LIST)
        request.headers.setdefault('User-Agent', ua)

    def process_response(self, request, response, spider):
        response = HtmlResponse(
            url=response.url,
            body=response.body,
            encoding='GB2312'
        )
        return response

GB2312不行的话，可以改成utf-8之类的

本文地址：https://blog.csdn.net/weixin_42156283/article/details/110491336

上一篇：将py文件打包成——exe文件

下一篇： python工具类

爬虫中遇到中文乱码解决方法

1.requests

2.scrapy

php上传文件中文文件名乱码的解决方法

php url地址栏传中文乱码解决方法集合

Windows下利用Gvim写PHP产生中文乱码问题解决方法

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

nodejs爬虫遇到的乱码问题汇总

JSP对URL链接中的中文乱码处理方法总结

php chr() ord()中文截取乱码问题解决方法

ubuntu系统下matplotlib中文乱码问题的解决方法

JQuery异步获取返回值中文乱码的解决方法

关于Cookie中带有中文乱码报错的问题解决