欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

【python】解决网页gb2312编码中文乱码问题

程序员文章站 2022-03-26 16:05:39
...

在写爬虫的时候,有时候会遇到非utf-8的网页,可能会造成中文乱码问题,比如说遇到的是gb2312的编码。直接打印中文就会变成乱码

标题1.查看网页编码

document.characterSet

2.正确解码

网页使用的是gb2312编码

str = requests.get("https://www.xxx.com")
# data = str.content.decode('utf-8')  指定编码
data = str.text.encode('latin1').decode('gbk')