计算机相关知识之字符编码集
程序员文章站
2022-07-13 12:28:30
...
计算机里的文件、数据、图片等文件对于我们人来说都只是表面现象,其所有文件在底层都是二进制文件,即全部都是字节码。
对于文本文件而言,之所以我们可以看到一个一个的字符,这完全是因为各个操作系统都会将底层的字节序列转换成字符序列的缘故。
这个转换过程:计算机<-->人中间产生两个概念,就是编码(Encode)和解码(Decode),即然要进行编码与解码,那么就必须要遵守一定的规范.对于文本文件而言,就必须要有相关字符集的支持。
常见的字符集如下:
1:ASCII:美国信息互换标准代码[单字节]
2:GB2312:*国家汉字信息交换用汉字编码集,也就是"国标码"GB
3:GBK:对GB2312的扩展,也就是国标扩展码,包括了一些不常用的字,符号等.
4:ISO-8859-1:是西方国家所使用的字符编码,是一种单字节的字符集,英文只用了其中数字小于128的部分
5:Unicode:是一种通用的字符集,对所有语言的文字进行了统一编码,对每一个字符都用了2个字节,所以传输英文网页的时候效率不高
6:UTF-8:能够用于全世界的字符,是一种不等长的编码,对于中文是用三个字节,对于英文只用一个字节,所以这个编码用的最广泛
Windows系统默认使用字符集:GBK
Ubuntu系统默认使用字符集:UTF-8
java使用Unicode表示字符串和字符,Unicode使用两个字节来表示一个字符.即一个字符占16位
对于文本文件而言,之所以我们可以看到一个一个的字符,这完全是因为各个操作系统都会将底层的字节序列转换成字符序列的缘故。
这个转换过程:计算机<-->人中间产生两个概念,就是编码(Encode)和解码(Decode),即然要进行编码与解码,那么就必须要遵守一定的规范.对于文本文件而言,就必须要有相关字符集的支持。
常见的字符集如下:
1:ASCII:美国信息互换标准代码[单字节]
2:GB2312:*国家汉字信息交换用汉字编码集,也就是"国标码"GB
3:GBK:对GB2312的扩展,也就是国标扩展码,包括了一些不常用的字,符号等.
4:ISO-8859-1:是西方国家所使用的字符编码,是一种单字节的字符集,英文只用了其中数字小于128的部分
5:Unicode:是一种通用的字符集,对所有语言的文字进行了统一编码,对每一个字符都用了2个字节,所以传输英文网页的时候效率不高
6:UTF-8:能够用于全世界的字符,是一种不等长的编码,对于中文是用三个字节,对于英文只用一个字节,所以这个编码用的最广泛
Windows系统默认使用字符集:GBK
Ubuntu系统默认使用字符集:UTF-8
java使用Unicode表示字符串和字符,Unicode使用两个字节来表示一个字符.即一个字符占16位