python爬虫爬取网页解决中文乱码问题
程序员文章站
2022-06-23 18:11:03
...
场景
使用requests爬取网页+beautifulsoup4解析。
出现网页内中文乱码问题
解决步骤
1. 在网页页面点击右键 查看网页源代码
2.查看编码方式
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="content-type" content="text/html;charset=GB2312"/>
从第四行代码可以看到网页编码是GB2312方式
3.修改代码
在request获取页面之后修改 encoding为GB2312即可
import requests
import re
from bs4 import BeautifulSoup
ret = requests.get('XXXXXXXX')
ret.encoding="GB2312"
bs = BeautifulSoup(ret.text,"html.parser")
4.查看结果中文正常显示
推荐阅读
-
python学习教程,如何解决Python中文编码乱码问题?
-
Python网络爬虫(selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密)
-
解决python中画图时x,y轴名称出现中文乱码的问题
-
解决python2 绘图title,xlabel,ylabel出现中文乱码的问题
-
Python网络爬虫开发从环境搭建到实例爬取网页
-
Python BeautifulSoup中文乱码问题的2种解决方法
-
python爬虫 下载一个网页内的图片解决分页以及图片懒加载的问题
-
PHP中使用file_get_contents抓取网页中文乱码问题解决方法
-
解决python3 HTMLTestRunner测试报告中文乱码的问题
-
python中requests爬去网页内容出现乱码问题解决方法介绍