解决Python网页爬虫之中文乱码问题

程序员文章站 2022-04-29 18:47:54

python是个好工具，但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的...

python是个好工具，但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，刚刚一解决就将这个方法公布与众，大家一同分享。

首先，我说一下python中文乱码的原因，python中文乱码是由于python在解析网页时默认用unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以unicode字符格式输出，会与系统编码格式不同，导致中文输出乱码，知道原因后我们就好解决了。下面上代码，实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果，中文完美输出

解决Python网页爬虫之中文乱码问题

以上这篇解决python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一篇： C语言----循环结构1（基础篇五）

下一篇：获取字符串结尾的电话号码(案例)

解决Python网页爬虫之中文乱码问题

解决python3 HTMLTestRunner测试报告中文乱码的问题

python中requests爬去网页内容出现乱码问题解决方法介绍

Django生成PDF文档显示在网页上以及解决PDF中文显示乱码的问题

解决python使用open打开文件中文乱码的问题

Python2.x中文乱码问题解决方法

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

解决Python pandas plot输出图形中显示中文乱码问题

解决Python网页爬虫之中文乱码问题

解决python3中的requests解析中文页面出现乱码问题

解决c++调用python中文乱码问题