Java中的字符编码问题处理心得总结
当面对一串字节流的时候,如果不指定它的编码,其实际意义是无法知道的。
这句话应该也是我们面对“字符转字节,字节转字符”问题时候时刻记在脑子里的。否则乱码问题可能就接踵而至。
其实乱码问题的本质就是encoding和decoding用的不是一个编码,明白了这个道理就很好解决乱码问题了。
java中常见的时候有如下:
1. string类使用byte[]的构造函数 string(byte[] bytes),string类同时提供了两个重载
(1)string(byte[] bytes, charset charset)
(2)string(byte[] bytes, string charsetname) 就是用来指定编码的。
2. string类的getbytes函数 byte[] getbytes() 同样有如下两个重载:
(1)byte[] getbytes(charset charset)
(2) byte[] getbytes(string charsetname)
所有不需指定编码的都是使用the platform's default charset, 可使用system.getproperty("file.encoding"),charset.defaultcharset()获的。
3. printstream的 print(string s)同样设计到这个问题,为此printstream的构造函数中除了printstream(file file) 还有printstream(file file, string csn)
否则the string's characters are converted into bytes according to the platform's default character encoding,
dataoutputstream构造时没有方法指定编码,但其提供了一个writeutf(string str)
举开头的例子说明指定编码的必要:
如果一个网页指定编码为utf-8, <meta http-equiv="content-type" content="text/html; charset=utf-8" />, 页面上有一个form,提交到一个servlet
那么用户输入的字符传过来的字节流就是按指定编码encoding的,例如你输入了"hello你好",如果是utf-8,那么传过来的就是如下:
[104, 101, 108, 108, 111, -28, -67, -96, -27, -91, -67]
, 我们看到后面汉字每个用了3个字节,这个可以参考utf-8的相关知识。
但如果你页面指定的是gbk,那传过来的就不一样了:
[104, 101, 108, 108, 111, -60, -29, -70, -61]
所以servlet端,当使用request.getparameter的时候内部应该是调用
string s = new string(bytes, response.getencoding())的,如果你response没有设置编码,那么就采用默认的编码null会转为java 平台的gbk,那中文就变成乱码了。
所以为了避免乱码,jsp站点一般设一个过滤器,所有的页面、servet都设置统一的编码。response.setencoding, request.setencoding.
java的string内部是一个char[], char是一个用16位存储的utf-16编码的单元。为此,当要把字符、字符串转为字节输出到文件、网络,或者从文件、网络读到的字节流还原为有实际意义的字符,都要明白其编码是什么。
几点心得
1.string类始终是以unicode编码形式存储.
2.注意string.getbytes()的使用:
如果不带字符集参数,就会依赖于jvm的字符集编码,linux上一般为unicode,windows下一般为gbk.(要想改变jvm缺省字符集编码,启动jvm时用选项-dfile.encodeing=utf-8.
为了安全起见,建议始终带参数调用,例如:string s ; s.getbytes("utf-8")。
3.charset类非常好用,
(1)charset.encode 是编码,即把string按你指定的字符集编码格式进行编码后输出字节数组。
(2)charset.decode 是解码,即把一个字节数组按你指定的字符集编码格式进行解码后输出成字符串。
举例如下:
string s = charset.defaultcharset().displayname(); string s1 = "我喜欢你,my love"; bytebuffer bb1 = bytebuffer.wrap(s1.getbytes("utf-8")); for(byte bt:bb1.array()){ system.out.printf("%x",bt); } //char[]用法 char[] charray={'i','l','o','v','e','你'}; //charbuffer用法 charbuffer cb = charbuffer.wrap(charray); //重新定位指针 cb.flip(); string s2= new string(charray); //bytebuffer用法 bytebuffer bb2 = charset.forname("utf-8").encode(cb); // 利用charset编码为指定字符集 bytebuffer bb3 = charset.forname("utf-8").encode(s1); byte [] b = bb3.array() ; // 利用charset按指定字符集解码为字符串 bytebuffer bb4= bytebuffer.wrap(b); string s2 = charset.forname("utf-8").decode(bb4).tostring();