字符集和字符编码

程序员文章站 2022-07-12 18:38:25

...

0. 字符

:大家平时看到的符号，用来组成某种句子、语言

如 A B 张三

1. 字符集

每一种语言都有一个字符集,如英语有26个字符.....

2. 编码字符集（数字的集合）

：一个编码字符集是一个字符集的的编码形式，即为每个字符分配一个唯一的数字

如 ASCII ：分配128个字符

扩展ASCII：分配256个字符

Unicode：包括了全人类字符，全人类字符的编码是Unicdoe的一个子集

ASCII和扩展的ASCII、Unicode都是一种表示字符集的编码方式，(假设)如字符a 对应0101010.....

每个字符都有对应的唯一2进制

(字符集越大，需要的字节数就越多)

3. 代码 点

代码点：代码点就是数字的集合

编码字符集合：是有效的代码点集合，已经用于表示字符的数字

如：Unicode的编码字符集合是：U+0000 -- U+10FFFF

而这个编码字符集合可以看成是属于 0---2的32次方-1 代码点范围的集合的

总结：

字符---字符集--map number--编码字符集---utf-8 utf-9-...---字符编码后的数据

4. 字符编码方案( 如utf-8 utf-16 utf-32 )

注意：

一般我们说的Unicode实际是：UTF-16字符编码的Unicode

以Unicode( 是编码字符集 )为例

由于字符 a b c d等只需1个字节就可以保存，但Unicode为容纳所有的语言的字符集，统一使用32位来表示每个字符

这样在网络传输时对只需1个字节表示的字符，造成了浪费

Unicode支持以下3种字符编码：

1. UTF-8 ：这是HTML和协议常用的，这里把Unicode字符转换成一种长度可变的字节编码。与ASCII集对应的Unicode字符，采用8位来表示，并且转变成UTF-8的Unicode字符可以再许多现有的软件找使用，如大多数浏览器支持UTF-8字符编码

2. UTF-16 ：把较为常用的字符采用16位的代码单元表示，其它的用32位

3.UTF-32 ：采用32位来表示每个字符，不是很好的选择。

（具体看文档或百度）

或者这篇文章：

http://www.doc88.com/p-99650883920.html

               String s = "\u03C0w\uD835\uDD6B\uD835\uDD6B";
		System.out.println(s.length());
		
		int codePointCount = s.codePointCount(0,s.length());
		System.out.println(codePointCount);
		
		int index = 0;
		int cp = 0;
		
		for(int i =0;i<s.length();i++)
			System.out.println((int)s.charAt(i));
		System.out.println("-----");
		
		for(int i =0;i<codePointCount;){
			index = s.offsetByCodePoints(0, i);
			System.out.println("index= "+index);
			cp = s.codePointAt(index);
			if(Character.isSupplementaryCodePoint(cp)){
				System.out.println(cp+" i ="+i);
				i++;
			}
			else
				i++;
		}

下一篇：超越java-此书笔记

字符集和字符编码

C#和SQL实现的字符串相似度计算代码分享

C#实现左截取和右截取字符串实例

深入Mysql字符集设置分析

PHP iconv()函数字符编码转换的问题讲解

MySQL查看和修改字符编码的实现方法

基于tomcat8 编写字符编码Filter过滤器无效问题的解决方法

c#入门之枚举和结构体使用详解(控制台接收字符串以相反的方向输出)

mysql字符集和数据库引擎修改方法分享

C# 字符串、数组和List的截取和转换实例

完美转换MySQL的字符集解决查看utf8源文件中的乱码问题

字符集和字符编码

C#和SQL实现的字符串相似度计算代码分享

C#实现左截取和右截取字符串实例

深入Mysql字符集设置分析

PHP iconv()函数字符编码转换的问题讲解

MySQL查看和修改字符编码的实现方法

基于tomcat8 编写字符编码Filter过滤器无效问题的解决方法

c#入门之枚举和结构体使用详解(控制台接收字符串以相反的方向输出)

mysql字符集和数据库引擎修改方法分享

C# 字符串、数组和List的截取和转换实例

完美转换MySQL的字符集 解决查看utf8源文件中的乱码问题

完美转换MySQL的字符集解决查看utf8源文件中的乱码问题