欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

字符集和字符编码

程序员文章站 2022-07-12 18:38:25
...

0. 字符

:大家平时看到的符号,用来组成某种句子、语言

如 A B 张三

 

1. 字符集

每一种语言都有一个字符集,如英语有26个字符.....

 

2. 编码字符集(数字的集合)

:一个编码字符集是一个字符集的的编码形式,即为每个字符分配一个唯一的数字

如 ASCII :分配128个字符

     扩展ASCII:分配256个字符

    Unicode:包括了全人类字符,全人类字符的编码是Unicdoe的一个子集

ASCII和扩展的ASCII、Unicode都是一种表示字符集的编码方式,(假设)如字符a 对应0101010.....

每个字符都有对应的唯一2进制

(字符集越大,需要的字节数就越多)

 

3. 代码

代码点:代码点就是数字的集合

编码字符集合:是有效的代码点集合,已经用于表示字符的数字

如:Unicode的编码字符集合是:U+0000 -- U+10FFFF

      而这个编码字符集合可以看成是属于 0---2的32次方-1  代码点范围的集合的

 

总结:

字符---字符集--map number--编码字符集---utf-8 utf-9-...---字符编码后的数据

 

4. 字符编码方案( 如utf-8 utf-16 utf-32 )

注意:

     一般我们说的Unicode实际是:UTF-16字符编码的Unicode

 

以Unicode( 是编码字符集 )为例

 

由于字符 a b c d等只需1个字节就可以保存,但Unicode为容纳所有的语言的字符集,统一使用32位来表示每个字符

这样在网络传输时 对只需1个字节表示的字符,造成了浪费

 

Unicode支持以下3种字符编码:

 

1. UTF-8 :这是HTML和协议常用的,这里把Unicode字符转换成一种长度可变的字节编码。与ASCII集对应的Unicode字符,采用8位来表示,并且转变成UTF-8的Unicode字符可以再许多现有的软件找使用,如大多数浏览器支持UTF-8字符编码

 

2. UTF-16 :把较为常用的字符采用16位的代码单元表示,其它的用32位

 

3.UTF-32 :采用32位来表示每个字符,不是很好的选择。

 

(具体看文档或百度)

 

或者这篇文章:

http://www.doc88.com/p-99650883920.html

 

 

               String s = "\u03C0w\uD835\uDD6B\uD835\uDD6B";
		System.out.println(s.length());
		
		int codePointCount = s.codePointCount(0,s.length());
		System.out.println(codePointCount);
		
		int index = 0;
		int cp = 0;
		
		for(int i =0;i<s.length();i++)
			System.out.println((int)s.charAt(i));
		System.out.println("-----");
		
		for(int i =0;i<codePointCount;){
			index = s.offsetByCodePoints(0, i);
			System.out.println("index= "+index);
			cp = s.codePointAt(index);
			if(Character.isSupplementaryCodePoint(cp)){
				System.out.println(cp+" i ="+i);
				i++;
			}
			else
				i++;
		}