关于字符编码的问题？

程序员文章站 2022-06-15 22:05:19

...

中文在gb2312编码的时候是2字节，但在unicode编码的情况下是1-3字节不等，英文则都是1字节，但在mysql中不做这方面的设定，varchar的长度不管是中文和英文都是一格字算一个，那么。。为什么要做这个1个汉字相当于2个英文字符的设定？

回复内容：

http://xfhnever.com/blog/2014/12/20/encodingformat/ 中稍微介绍了一下各种编码格式

varchar(20)指定的是字符长度
mysql中会指定表的字符集，如下面的CHARSET=gbk：

 CREATE TABLE `test_type` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  PRIMARY KEY (`id`),
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=gbk COLLATE=gbk_bin

为什么要做这个1个汉字相当于2个英文字符的设定？

这种设定是一般基于字符串的自然长度(也就是显示的长度)，一个汉字等于2个英文字母或数字。对于普通用户来讲就是字样，计算字节一般不都是程序和程序员干的事么。所以一般的程序设计中，一般遵循着一个汉字就是2个英文字母长度的设定，而具体占用空间则视编码和环境进行计算。

参建函数 mb_strwidth()

最早出现的编码是ASCII这样面向英文语言的编码，ASCII定义了0-127，一共128个字符的编码。对于英语这样用26个字符的，自然是够用的。问题是，如果是其他使用的字符多余26个的西方文字呢？由于已经约定了0x7F空间内的字符编码，所以我们可以看到有些西方文字，例如俄文是完全不和英文共用部分字符的，需要使用ASCII扩展集。在编码理论发展的过程，出现过各个地域分别采用不同编码体系来编码本国文字。中国是使用ISO2022体系，编码了中国的常用字符GB2312，更多的字符GBK，以及最大的集合GB18030。

通过简单的思考，你会发觉一个字节8bits只能编码类似英文这样的文字系统，而中文的常用字就有几千上万个。所以至少需要2个字节。

Unicode的出现，目的是统一全世界所有的字符编码空间，不会造成字符编码冲突问题。例如，如果你用GBK编码的字符，用UTF-8编码解释，也可能是字面有效的。Unicode编码有UTF-8,UTF-16,UTF-32，甚至UTF-7等多种格式。常说的Unicode编码是指UTF-16，因为它能以统一的方式编码几乎所有常用的字符，所以如果不是针对极端情况，我们可以假设字符都能用UTF-16表示。在UTF-16编码的情况下，汉字和英文每个字符的长度都是2个字节，是等长的。在Windows系统内部就是利用这种特性，高效的处理文字。UTF-8应用也很广泛，好处是存储上来说空间节省，解码复杂些。

MySQL在多个层面上都做了Encoding的设计，支持在不同层面上指定字符编码。

不过显然，我们应该推荐在各个层面是使用UTF-8编码。如果是内存中处理，推荐使用UTF-16，其实各种语言在设计中，好像也是这样设计的。

关于字符编码的问题？

回复内容：

求解PHP字符串比较的问题？

关于zend sudio一个烦人的有关问题

关于伪静态IIS7.0中web.config的有关问题

关于PHP中的输入验证有关问题

一个关于php里面GP库的有关问题

关于thinkPHP3.2的无限遍历有关问题，困扰了几天了

关于是时间戳对比的有关问题

php提取csv格式文件中的字符串出现的有关问题及解决方法

请教关于explode这个函数的有关问题

关于cookie在代码中执行的顺序有关问题