字符集和字符编码
0. 字符
:大家平时看到的符号,用来组成某种句子、语言
如 A B 张三
1. 字符集
每一种语言都有一个字符集,如英语有26个字符.....
2. 编码字符集(数字的集合)
:一个编码字符集是一个字符集的的编码形式,即为每个字符分配一个唯一的数字
如 ASCII :分配128个字符
扩展ASCII:分配256个字符
Unicode:包括了全人类字符,全人类字符的编码是Unicdoe的一个子集
ASCII和扩展的ASCII、Unicode都是一种表示字符集的编码方式,(假设)如字符a 对应0101010.....
每个字符都有对应的唯一2进制
(字符集越大,需要的字节数就越多)
3. 代码 点
代码点:代码点就是数字的集合
编码字符集合:是有效的代码点集合,已经用于表示字符的数字
如:Unicode的编码字符集合是:U+0000 -- U+10FFFF
而这个编码字符集合可以看成是属于 0---2的32次方-1 代码点范围的集合的
总结:
字符---字符集--map number--编码字符集---utf-8 utf-9-...---字符编码后的数据
4. 字符编码方案( 如utf-8 utf-16 utf-32 )
注意:
一般我们说的Unicode实际是:UTF-16字符编码的Unicode
以Unicode( 是编码字符集 )为例
由于字符 a b c d等只需1个字节就可以保存,但Unicode为容纳所有的语言的字符集,统一使用32位来表示每个字符
这样在网络传输时 对只需1个字节表示的字符,造成了浪费
Unicode支持以下3种字符编码:
1. UTF-8 :这是HTML和协议常用的,这里把Unicode字符转换成一种长度可变的字节编码。与ASCII集对应的Unicode字符,采用8位来表示,并且转变成UTF-8的Unicode字符可以再许多现有的软件找使用,如大多数浏览器支持UTF-8字符编码
2. UTF-16 :把较为常用的字符采用16位的代码单元表示,其它的用32位
3.UTF-32 :采用32位来表示每个字符,不是很好的选择。
(具体看文档或百度)
或者这篇文章:
http://www.doc88.com/p-99650883920.html
String s = "\u03C0w\uD835\uDD6B\uD835\uDD6B"; System.out.println(s.length()); int codePointCount = s.codePointCount(0,s.length()); System.out.println(codePointCount); int index = 0; int cp = 0; for(int i =0;i<s.length();i++) System.out.println((int)s.charAt(i)); System.out.println("-----"); for(int i =0;i<codePointCount;){ index = s.offsetByCodePoints(0, i); System.out.println("index= "+index); cp = s.codePointAt(index); if(Character.isSupplementaryCodePoint(cp)){ System.out.println(cp+" i ="+i); i++; } else i++; }