Python中的字符编码

程序员文章站 2023-11-23 08:02:03

python中的字符编码，了解各种字符编码，了解python中对各种字符编码的辨别与转换。字符编码字符编码的起源和意义网上的资源很多，不再详述…字符编码分两种...

python中的字符编码，了解各种字符编码，了解python中对各种字符编码的辨别与转换。

字符编码

字符编码的起源和意义网上的资源很多，不再详述…字符编码分两种：unicode和其他。

这是因为unicode是一种类似于符号集的抽象编码，它只规定了符号的二进制代码，却没有规定这个二进制代码如何存储。它只是一种内部表示，而不能直接保存。python中字符的内部表示就是unicode，也就是说，在python解释器面前，所有的字符都根据它们的编码方式转换成了unicode(例如：.py源代码中的编码方式声明为utf-8，解释器在运行时会将其做utf-8→unicode的操作，在输出至控制台或其他时，在转成utf-8)。据我所知，java内部的字符也是unicode。
所以存储unicode时需要规定一种存储形式，就是上文中字符编码的另一类“其他”，比如utf-8或utf-16等。理论上unicode已经可以容纳全世界所有语言文字的编码方案。

在字符编码的第二种“其他”中，又有很多编码方式。

比如gb开头的“国标”，包括gb2312(gb2312-80)，gbk，
gb18030，表示范围从小到大递增，而且基本向下兼容。此外经常遇到一种叫做cp936的编码(windows
xp的cmd默认编码)，实际上大概可以看做是gbk。再比如最早出现的ascii码。当然，现在越来越多使用的是utf-8字符编码。

python中的字符编码

判断编码类型

在python中判断字符的编码类型主要有三种：

isinstance('字符串', str)判断是否是ascii类型的字符串，utf-8、utf-16、gb等都是ascii类型的字符串。isinstance('字符串', unicode)判断是不是unicode类型。 '字符串'.__class__可以输出或type('字符串')可以输出或编码转换
从具体编码(iso-8859-1[ascii码]，utf-8，utf-16，gbk，gb2312等)转换为unicode(解码)：
unicode('字符串', 'utf-8')  # 方法一
'字符串'.decode('utf-8')  # 方法二
u'字符串'  # 方法三
从unicode到具体编码（编码）：
'字符串'.decode('utf-8'[, 'ignore']).encode('utf-8')
ps: 编码和解码前后的具体编码类型应该一致，否则不会得到正确的原始数据。
编码类型声明
在python2中默认的编码类型是ascii码，也就是说python解释器在工作时，将源文件中的ascii码解码成unicode。但是，由于ascii码对中文无能为力，所以当文件中有中文的时候，不对文件进行编码类型的声明是会报错的。

声明方式：

在文件头加上-*- coding: utf-8 -*-

上一篇：稀疏数组（java实现）

下一篇： day009--python文件操作

Python中的字符编码

字符编码

python中的字符编码

判断编码类型

编码转换

编码类型声明

简单理解Python中的装饰器

详解Python中heapq模块的用法

Python中的with语句与上下文管理器学习总结

Python中operator模块的操作符使用示例总结

详解Python3中的Sequence type的使用

深入解析Python中的上下文管理器

浅谈Python中列表生成式和生成器的区别

详解Python中contextlib上下文管理模块的用法

Python中asyncore异步模块的用法及实现httpclient的实例

实例讲解Python中SocketServer模块处理网络请求的用法