【Servlet】请求和响应乱码
程序员文章站
2022-05-07 08:15:34
...
字符编码
-
理解:字符与计算机底层二进制数据的对应关系的表。
-
各个编码集之间的关系:
ASCII:美国标准信息交换码。用一个字节的7位可以表示。
ISO8859-1:拉丁码表。用一个字节的8位表示。
GB2312:中国的中文编码表。最多两个字节编码所有字符。
GBK:中国的中文编码表升级。最多两个字节编码。
Unicode:国际标准码。所有的文字都用两个字节来表示。
UTF-8:变长的编码方式。可用1-4个字节来表示一个字符。
演变:①最早使用ASCII,但是只有字母。②ISO8859-1、GB2312、GBK统称为ANSI编码,通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK;解码时可用二进制首位是1还是0来确定,两个字节还是一个字节表示一个字符。③Unicode融合了所有国家字符的编码,但是解码时无法确定几个字节表示一个字符,这时候引入了编码方式,UTF-8,UTF-16输入编码方式,这时候编码表和编码方式就分开了。 -
这里我们只需要知道几点:
- 字符–>二进制:编码。二进制–>字符:解码。
- 数据是以二进制的方式进行传输的。
- Unicode是编码集,UTF-8是基于Unicode编码集的编码方式。
get请求乱码
- 现象:get请求提交中文,此时中文参数拼接在url中
- 原因:服务器解析url时不知道编码规则
浏览器发出请求时,url是按照utf-8方式进行编码的;服务器在解析url时,进行解码时没有使用utf-8方式解码,而是使用服务器默认方式解码,编码方式和解码方式不同,因此出现乱码。 - 解决:修改服务器配置文件:server.xml。找到<Connector>标签添加URIEncoding="utf-8"属性。
解析url时,是在拦截8080端口请求时,还没有到封装请求数据到request那一步,因此改代码没有用,要改tomcat端口配置。
<Connector URIEncoding="UTF-8" connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort="8443"/>
post请求乱码
- 现象:post请求提交中文,此时中文参数放在请求体中
- 原因:服务器解析请求体中的参数时不知道编码规则
浏览器发出请求时,是按照utf-8方式进行编码的;服务器解析请求体中数据时,进行解码时没有使用 utf-8方式解码,而是使用服务器默认方式解码,编码方式和解码方式不同,因此出现乱码。 - 解决:request.setCharacterEncoding(“utf-8”);
@Override
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
request.setCharacterEncoding("utf-8");
String username = request.getParameter("username");
System.out.println(username);
}
响应乱码
- 现象:response.getWriter.write(“中文”);向页面写数据出现乱码
- 原因:浏览器不知道服务器响应的这些数据的编码规则及内容类型
服务器发出响应时,是按照utf-8方式进行编码的;浏览器解析响应数据时,进行解码时没有使用utf-8方式解码,因此出现乱码。 - 解决:response.setContentType(“text/html;charset=utf-8”);
服务器需要告诉浏览器响应数据的编码规则及内容类型
@Override
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
request.setCharacterEncoding("utf-8");
String username = request.getParameter("username");
System.out.println(username);
response.setContentType("text/html;charset=utf-8");
PrintWriter writer = response.getWriter();
writer.write("中文");
}