基础知识收录(五)编码 博客分类: 基础知识收录 编码unicodeutf8ASCII
程序员文章站
2024-03-11 15:25:55
...
一个字节(byte)=8位二进制数(bit):1(byte) = 8(bit)
1 ASCII码(American Standard Code for Information Interchange,美国标准信息交换代码),占用一个字节
2 unicode编码,ASCII码对于美国,欧洲这些国家字符够用,但是处理中文字符至少要2个字节,ASCII码明显不够用,所以中国定制了GB2312码,日本,韩国等都有各自的编码集,为了统一国际标准,unicode编码产生了,它占用2个字节
3 utf-8编码(可变长编码) 有些文档如果都是英文字符,用unicode编码太浪费空间,utf8可以把一个unicode编码根据数字的大小编码成1-6个字节:英文字符一个字节,中文字符3个字节,偏僻的字符4-6个字节
计算机内存中统一用unicode编码,
如果你一份文档A,指定utf-8编码
那么计算机,读取A时,先将把它从utf-8编码转换成unicode编码装载到内存中
保存时,反之
1 ASCII码(American Standard Code for Information Interchange,美国标准信息交换代码),占用一个字节
2 unicode编码,ASCII码对于美国,欧洲这些国家字符够用,但是处理中文字符至少要2个字节,ASCII码明显不够用,所以中国定制了GB2312码,日本,韩国等都有各自的编码集,为了统一国际标准,unicode编码产生了,它占用2个字节
3 utf-8编码(可变长编码) 有些文档如果都是英文字符,用unicode编码太浪费空间,utf8可以把一个unicode编码根据数字的大小编码成1-6个字节:英文字符一个字节,中文字符3个字节,偏僻的字符4-6个字节
字符 ASCII码 unicode码 utf-8 A 01000001 000000000 01000001 01000001 中 x 01001110 00101101 11100100 10111000 10101101
计算机内存中统一用unicode编码,
如果你一份文档A,指定utf-8编码
那么计算机,读取A时,先将把它从utf-8编码转换成unicode编码装载到内存中
保存时,反之