python爬虫爬取网页解决中文乱码问题

程序员文章站 2022-06-23 18:11:03

...

场景

使用requests爬取网页+beautifulsoup4解析。
出现网页内中文乱码问题

解决步骤

1. 在网页页面点击右键查看网页源代码

python爬虫爬取网页解决中文乱码问题

2.查看编码方式

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="content-type" content="text/html;charset=GB2312"/>

从第四行代码可以看到网页编码是GB2312方式

3.修改代码

在request获取页面之后修改 encoding为GB2312即可

import requests
import re
from bs4 import BeautifulSoup
ret = requests.get('XXXXXXXX')
ret.encoding="GB2312"
bs = BeautifulSoup(ret.text,"html.parser")

4.查看结果中文正常显示

python爬虫爬取网页解决中文乱码问题

相关标签：爬虫乱码 python html python爬虫

上一篇：世界上最长的腿：没裤子可穿(腿长1.35米)

下一篇： FoneLab for iOS如何激活 ios数据恢复软件FoneLab for iOS安装及激活教程

python爬虫爬取网页解决中文乱码问题

场景

解决步骤

1. 在网页页面点击右键查看网页源代码

2.查看编码方式

3.修改代码

4.查看结果中文正常显示

python学习教程，如何解决Python中文编码乱码问题？

Python网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）

解决python中画图时x,y轴名称出现中文乱码的问题

解决python2 绘图title,xlabel,ylabel出现中文乱码的问题

Python网络爬虫开发从环境搭建到实例爬取网页

Python BeautifulSoup中文乱码问题的2种解决方法

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

解决python3 HTMLTestRunner测试报告中文乱码的问题

python中requests爬去网页内容出现乱码问题解决方法介绍

python爬虫爬取网页解决中文乱码问题

场景

解决步骤

1. 在网页页面点击右键 查看网页源代码

2.查看编码方式

3.修改代码

4.查看结果中文正常显示

python学习教程，如何解决Python中文编码乱码问题？

Python网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）

解决python中画图时x,y轴名称出现中文乱码的问题

解决python2 绘图title,xlabel,ylabel出现中文乱码的问题

Python网络爬虫开发从环境搭建到实例爬取网页

Python BeautifulSoup中文乱码问题的2种解决方法

python爬虫 下载一个网页内的图片解决分页以及图片懒加载的问题

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

解决python3 HTMLTestRunner测试报告中文乱码的问题

python中requests爬去网页内容出现乱码问题解决方法介绍

1. 在网页页面点击右键查看网页源代码

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题