Python中的编码问题，中文乱码问题

程序员文章站 2022-03-07 09:57:42

1、如果不声明编码，则中文会报错，即使是注释也会报错。只要写中文，必须加一句：# -- coding:utf-8 --。原因：答案在PEP-0263里面有所提及，那就是Emacs等编辑器使用这种方式进行编码声明。 2、文档编码是一种告诉程序——无论是计算机的操作系统还是Python 代码——读取文档 ......

1、如果不声明编码，则中文会报错，即使是注释也会报错。只要写中文，必须加一句：# -- coding:utf-8 --。原因：答案在pep-0263里面有所提及，那就是emacs等编辑器使用这种方式进行编码声明。

2、文档编码是一种告诉程序——无论是计算机的操作系统还是python 代码——读取文档的规则。正确读取一个文档，往往需要先知道文件的扩展名，因为编码方式往往与扩展名有很大的关系。

3、(1)纯文本文档的获取与处理：直接用urlopen读取后，用read()函数获取文本内容即可。纯文本页面不要转换成beautifulsoup对象，因为无法解析，会被认为是一堆字符串，只能用字符串的操作方法来解析。

　 (2)csv文档、pdf文档等非纯文本文档的读取方式：直接通过文档获取链接以字符串的方式读取文档——通过io库的stringio函数将字符串转换为stringio对象——通过csv库或pdf库将stringio对象读取为相应格式的文档，

4、编码类型：

(1)utf-8：统一字符集-转换格式8位。它的开头有标记指示字符占了用了多少个字节来表示，一个字符最多有四个字节。

(2)ascii：每个字符7位，用来表示中文会不够用，但是英文够用了。

(3)utf-8和ascii的结合：首位为0，即只包含一个字节的utf-8字符和ascii通用，因为相当于只用到了7位。但首位为1的两字节utf-8字符不通用。

(4)iso编码：解决非英文非中文语言文档太大的问题，比如土耳其语没有那么多字符，又不能用单纯的ascii。因此使用ascii的首位来做特殊化，可以针对不同的语言生成不同的规则。

5、在用python读网页或文档时，最好统一将获取的内容统一转换成utf-8编码。获取国际站的内容时，最好先看看网站metasharset信息中所指示的编码方式后再确定选择哪种编码方式。

6、encode和decode：

　　字符串在python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

　　decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1转换成unicode编码。

　　encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘gb2312’)，表示将unicode编码的字符串str2转换成gb2312编码。

　　因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码

上一篇：小程序改名影响正常使用吗

下一篇：微信小程序中怎么让图片居中

Python中的编码问题，中文乱码问题

完美转换MySQL的字符集解决查看utf8源文件中的乱码问题

Mysql 下中文乱码的问题解决方法总结

详解Intellij IDEA中.properties文件中文显示乱码问题的解决

iOS中Xcode 8 日志输出乱码问题的解决方法

iOS中解决Xcode9的Log日志无法输出中文的问题小结

python开发环境PyScripter中文乱码问题解决方案

解决python中使用PYQT时中文乱码问题

MySQL的中文UTF8乱码问题

基于C#开发中的那些编码问题(详谈)

JSP/Servlet 中的汉字编码问题

Python中的编码问题，中文乱码问题

完美转换MySQL的字符集 解决查看utf8源文件中的乱码问题

Mysql 下中文乱码的问题解决方法总结

详解Intellij IDEA中.properties文件中文显示乱码问题的解决

iOS中Xcode 8 日志输出乱码问题的解决方法

iOS中解决Xcode9的Log日志无法输出中文的问题小结

python开发环境PyScripter中文乱码问题解决方案

解决python中使用PYQT时中文乱码问题

MySQL的中文UTF8乱码问题

基于C#开发中的那些编码问题(详谈)

JSP/Servlet 中的汉字编码问题

完美转换MySQL的字符集解决查看utf8源文件中的乱码问题