java字符串在内存和文件中编码的不同，如何理解二进制与编码的关系

程序员文章站 2022-03-26 16:38:11

不管是在内存中，还是文件中，还是网络传输中，计算机运算和存储的都只能是二进制。内码是程序内部使用的字符编码，特别是某种语言实现其char或String类型在内存里用的内部编码；外码是程序与外部交互时外部使用的字符编码.....

不管是在内存中，还是文件中，还是网络传输中，计算机运算和存储的都只能是二进制。
内码是程序内部使用的字符编码，特别是某种语言实现其char或String类型在内存里用的内部编码；外码是程序与外部交互时外部使用的字符编码。

“外部”相对“内部”而言；不是char或String在内存里用的内部编码的地方都可以认为是“外部”。例如，外部可以是序列化之后的char或String，或者外部的文件、命令行参数之类的。
Java语言规范规定，
Java的char类型是UTF-16的code unit，也就是一定是16位（2字节）：char, whose values are 16-bit unsigned integers representing UTF-16 code units (§3.1).
然后字符串是UTF-16 code unit的序列：The Java programming language represents text in sequences of 16-bit code units, using the UTF-16 encoding.
这样，Java规定了字符的内码要用UTF-16编码。或者至少要让用户无法感知到String内部采用了非UTF-16的编码。
java在内存中使用的是unicode编码（unicode是万国码包含了所有的字符，一统天下）。
当从文件或网络读取字符串时，需要解码；当向文件或网络写入字符串时，需要编码。

为什么需要编解码？
Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
比如，汉字严的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说，这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。
这里就有两个严重的问题，第一个问题是，如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。
它们造成的结果是：1）出现了 Unicode 的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示 Unicode。2）Unicode 在很长一段时间内无法推广，直到互联网的出现。
程序以一种编码格式将字符串写入文件时，操作系统或者其他应用程序如果想要读取这个文件，必须也要采用相同的编码格式才能正确读取。
UTF-16在Java设计之初是定长编码，后来Unicode涵盖的字符变多了之后UTF-16变成了坑爹的变长编码（一个完整的“字符”是一个code point；一个code point可以对应1到2个code unit；一个code unit是16位），Java也只好跟进。现在其实已经不能说：一个char可以表示一个字符了。（可能需要两个char）

String.charAt() 返回char，获取字符串中的一个char，不一定是一个完整的字符
String.codePointAt() 返回int，获取字符串中的一个字符（两个char）
java中的流可以分为字节流和字符流。字节流每次读取一个字节，返回一个byte；字符流每次读取一个字符（底层用String.codePointAt()实现），返回一个int。
文本文件中都是以字符串的形式存储的，所有如果直接写入其它类型的数据时，实际上都是把它们的二进制当成字符串的二进制解析后，写入的。所以，直接用FileOutputStream去写的话，直接打开文件看到的都是乱码。如果想不是乱码，就得把其它类型先转成字符串类型再写入文件。

相关标签： Java 操作系统编码底层原理进制字符串

上一篇： java 类String 是如何实现的？（一些重要的方法）

下一篇： java.lang.ClassCastException: com.sun.proxy.$Proxy$ cannot be cast to ...