char类型与Unicode编码

程序员文章站 2022-07-01 16:04:36

...

char类型与Unicode编码
Unicode(UTF-8, UTF-16)令人混淆的概念

Java的char型是非常独特的，占用两个字节，因为Java中char型采用了Unicode编码。

要理解这个问题，我们必须要理解什么是Unicode。

世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。与ASC2和ISO-8859-1类似，Unicode是一种编码方式，但是它所包括字符的范围却与之前的所有编码方式有着天壤之别。Unicode是一个囊括了几乎世界上所有文字的字符编码表。它的目标是任何文字都可以在其中找到唯一的编码，例如0041表示了字符A，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字“严”。它所要解决的主要问题是：不同语言和地区之间字符编码转换的问题，如果
采用了Unicode编码的话则不需要在不同的字符集之间切换，因为都包括在Unicode当中。
Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对 Unicode 编码的实现方式有所不同，具体由UTF(UCS Transformation Format)规范规定，常见的UTF规范包括UTF-8、UTF-16、UTF-32。

Java语言中char类型采用UTF-16编码格式。
从JDK1.5开始，代码点（code point）是指与一个编码表中某个字符对应的代码值。在Unicode标准中，代码点采用16进制数写，并加上前缀U+，例如U+0041就是字母A的代码点。Unicode代码点可以分成17个代码级别（code plane）。第一个代码级别称为基本的多语言级别（basic multilingual plane），代码点从U+0000到U+FFFF，其中包括了经典的Uncode代码；其余16个附加级别，代码点从U+10000带U+10FFFF，其中包括了一些辅助字符（supplementary character）。
UTF-16它采用不同长度的编码表示所有的Unicode代码点（是一种变长的编码方式）。在基本的多语言级别中，每个字符用16位表示，通常被称为代码单元（code unit）；而辅助字符采用一对连续的代码单元惊醒编码。这样构成的代码值一定落入基本的多语言级别中空闲的2048字节内，通常被称为替代区域（surrogate area）（U+D800到U+DBFF用于第一个代码单元，U+DC00到U+DFFF用于第二个代码单元）。这种设计十分巧妙，我们可以从中迅速的知道一个代码单元是一个字符编码，还是一个辅助字符的第一或第二部分。
强烈建议不要再程序中使用char类型，除非确实需要对UTF-16代码单元进行操作。最好将需要处理的字符串用抽象数据类型表示。可以采用转义序列符/u表示Unicode代码单元。（为什么呢？）

写了段代码，从中可以可以基本理解Java的char、Unicode、代码点和代码单元的概念了，详见 Java中的基础类型，用二进制表示数字

上一篇： Smarty模板文件中的一般变量

下一篇： scala环境

char类型与Unicode编码

js字符串与Unicode编码互相转换

c++转码基础(1):各种编码类型及unicode和uft-8互转

CString与string、char *类型转换

char类型与int类型的相互转换、

c语言求组，char*与char**类型的实参不兼容

Opencv7：Mat与unsigned char[ ]类型的相互转换

char类型与Unicode编码

解析JavaScript中的字符串类型与字符编码支持

浅析PHP中的UNICODE 编码与解码

JAVA Unicode编码与中文互换