字符编码——python学习

程序员文章站 2022-05-11 14:28:26

python学习—字符编码例如汉字“中” 十进制：20013 二进制：01001110 00101101(unicode)/11100100 10111000 10101101(utf-8) 十六进制：u4e2d 八进制： ascii ASCII编码是1个字节只能编码纯英文节省空间 unico ......

python学习—字符编码

例如汉字“中”

十进制：20013

二进制：01001110 00101101(unicode)/11100100 10111000 10101101(utf-8)

十六进制：u4e2d

八进制：

ascii

ascii编码是1个字节
只能编码纯英文
节省空间

unicode

unicode编码通常是2个字节。（比如字母a用ascii编码是十进制的65，二进制的01000001；a的unicode编码是00000000 01000001。）
uicode统一编码，解决编码冲突，乱码问题消失
比ascii多一倍的存储空间，存储和传送时不划算（utf-8解决）

utf-8(可变长的unicode编码)

utf-8编码把一个unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。

字符	ascii	unicode	utf-8
a	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

如果你要传输的文本包含大量英文字符，用utf-8编码就能节省空间：
ascii编码实际上可以被看成是utf-8编码的一部分，所以，大量只支持ascii编码的历史遗留软件可以在utf-8编码下继续工作。

计算机系统通用的字符编码工作方式

内存：统一unicode编码

硬盘、传输：转换为utf-8

浏览网页的时候，服务器会把动态生成的unicode内容转换为utf-8再传输到浏览器：

python的字符串

相关函数

ord()函数获取字符的整数表示（单个字符）参数为要操作的单个字符，返回一个整数。
chr()函数把编码转换为对应的字符（单个字符）
encode（）函数，将str字符串以指定的编码方式（参数）变为bytes

'str'.encode（ascii/utf-8）返回bytes字符串

中文以ascii编码会报错

decode()函数把从网络或磁盘上读取的bytes以指定的编码方式（参数）变为str

'bytes'.decode(ascii/utf-8)返回str字符串

bytes无法解码会报错，如果bytes中只有一小部分无效的字节，可以传入errors='ignore'忽略错误的字节

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') '中'

len()函数，计算字符串包含字符个数

>>> len(b'abc') 3 >>> len(b'\xe4\xb8\xad\xe6\x96\x87') 6 >>> len('中文'.encode('utf-8')) 6

在最新的python 3版本中，字符串是以unicode编码的，也就是说，python的字符串支持多语言

python的字符串类型是str,如果要在网络上传输，或者保存到磁盘上，就需要把str变为bytes。

>>为了避免乱码问题，应当始终坚持使用utf-8编码对str和bytes进行转换<<

str和bytes的区别

str一个字符对应若干个字节，但bytes的每个字符都只占用一个字节。（将多字节的字符分解为单字节的多字符）

>>> 'abc'.encode('ascii') b'abc' >>> '中文'.encode('utf-8') b'\xe4\xb8\xad\xe6\x96\x87'

在bytes中，无法显示为ascii字符的字节，用\x##显示。

bytes字符带前缀，带引号

.py文件中含中文要用utf-8编码

#!/usr/bin/env python3 # -*- coding: utf-8 -*-

第一行注释是为了告诉linux/os x系统，这是一个python可执行程序，windows系统会忽略这个注释；

第二行注释是为了告诉python解释器，按照utf-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

>>编辑器用utf-8 without bom<<

字符串格式化问题

>>> 'hello, %s' % 'world' 'hello, world' >>> 'hi, %s, you have $%d.' % ('michael', 1000000) 'hi, michael, you have $1000000.'

%运算符

就是用来格式化字符串的。在字符串内部有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。
转义，用%%来表示一个%

>>> 'growth rate: %d %%' % 7 'growth rate: 7 %'

占位符	替换内容
%d	整数
%f	浮点数
%s	字符串
%x	十六进制整数

format()

另一种格式化字符串的方法是使用字符串的format()方法，它会用传入的参数依次替换字符串内的占位符{0}、{1}……，不过这种方式写起来比%要麻烦得多：

>>> 'hello, {0}, 成绩提升了 {1:.1f}%'.format('小明', 17.125) 'hello, 小明, 成绩提升了 17.1%'

上一篇： InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised.解决办法

下一篇： SignalR 设计理念(一)

字符编码——python学习

对python3.4 字符串转16进制的实例详解

python3.4 将16进制转成字符串的实例

Python任意字符串转16, 32, 64进制的方法

解决JavaEE开发中字符编码出现乱码的问题

Python实现将字符串的首字母变为大写,其余都变为小写的方法

python 计算一个字符串中所有数字的和实例

Python中基本的日期时间处理的学习教程

python 将字符串完成特定的向右移动方法

python中根据字符串调用函数的实现方法

Python编码爬坑指南(必看)