欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

用notpad++写HTML所遇见的问题解析

程序员文章站 2022-06-18 16:01:42
在xhtml、html5中使用 我们做网页时,如果指定的 charset 是 gb2312,那么就不应该在网页中出现繁体字,因为 gb2312 标准只有几千个简体的中...

在xhtml、html5中使用

我们做网页时,如果指定的 charset 是 gb2312,那么就不应该在网页中出现繁体字,因为 gb2312 标准只有几千个简体的中文字。如果我们的网页编码是 utf-8,我们就不要指定字符集是 gb2312,因为虽然 utf-8 编码对应的 utf-8 字符集包含了 gb2312 的字符,但同一个字符在两个字符集中的编号不一样。

下面这些编码方式,比如:中文 gbk ,繁体中文 big5,日文?euc-jp,韩文 euc-kr 等,每种语言的编码方式是不同的,所以需要使用charset为网页提供了一种编码方式,否则页面很可能出现乱码。

utf-8?是国际字符编码,也就是独立于任何一种语言,任何语言都可以使用。

utf-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的则用utf-8节省空间。gbk包含全部中文字符;utf-8则包含全世界所有国家需要用到的字符。gbk是在国家标准gb2312基础上扩容后兼容gb2312的标准(好像还不是国家标准)utf-8编码的文字可以在各国各种支持utf8字符集的上显示。比如,如果是utf8编码,则在外国人的英文ie上也能显示中文,而无需他们下载ie的中文语言支持包。 所以,对于英文比较多的论坛 ,使用gbk则每个字符占用2个字节,而使用utf-8英文却只占一个字节。utf8是国际编码,它的通用性比较好,外国人也可以浏览论坛,gbk是国家编码,通用性比utf8差,不过utf8占用的比gbk大。

这里有必要简述一下几种中文字体的区别: gb2312,gbk,gb18030。这是市面上gb系列三种中文的编码方式,三者越往后形成越晚,字符越多(后面版本全部兼容之前版本)。gb2312只支持简体,共7445个字符。gbk有21886个汉字字符,支持繁体中文,gb18030就更多,甚至支持一些少数民族文字,是现在非手持跟植入式设备标准。现在仍有很多手持设备是gb2312的标准。这种情况用gb18030解码就会出现错误。