欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

数据库字符集和编码转换

程序员文章站 2022-05-01 13:25:55
...

数据库管理系统支持某种编码,主要涉及三个方面: 数据库服务器支持。 数据访问接口支持。 客户端工具支持。 1 数据库服务器字符编码 : 数据库服务器支持某种编码,是指数据库服务器能够从客户端接收、存储以及向客户端提供该种编码的字符(包括标识符、字

数据库管理系统支持某种编码,主要涉及三个方面:

数据库服务器支持。

数据访问接口支持。

客户端工具支持。

1 数据库服务器字符编码

数据库服务器支持某种编码,是指数据库服务器能够从客户端接收、存储以及向客户端提供该种编码的字符(包括标识符、字符型字段值),并能将该种编码的字符转换到其它编码(如UTF-8编码转到GBK编码)。

1.1指定数据库服务器编码:

Postgresql:

创建数据库时指定:

CREATE DATABASE … ENCODING …

可以取ASCII、UTF-8、EUC_CN、……

1.2查看数据库编码

Postgresql:

show server_encoding

2 数据库访问接口编码

数据访问接口支持某种编码,该接口要做到能对该种编码的字符进行正确读写,不应出现数据丢失、数据失真等情况。

以JDBC接口为例:

JDBC接口一般根据JVM的file.encoding设置client_encoding,set client_encoding to file_encoding。

将String转换成client_encoding编码的字节流,传给服务器端,原型String.getBytes(client_encoding) 。

收到服务器的字节流后,使用client_encoding构造String对象作为getString的返回值给应用程序,原型String(byte[], …, client_encoding)

3 客户端编码

客户端工具支持某种编码,必须能够显示从数据库读取的该种编码的字符,也能通过本工具将该种编码的字符提交到给服务器端。

3.1 Postgresql指定会话的客户端编码

SET CLIENT_ENCODING TO 'value'

3.2查看数据库编码

Show client_encoding

4 查看字符不同编码的二进制字符串

下面是几个字符在不同编码下数据库中的二进制存储串,Postgresql中Select decoding(name,’escape’) from test可以查看数据库服务器中二进制串。

4。1 以“贝钢”为例

GBK编码为:B1B4 B8D6

UTF-8编码为:E8B49D E992A2

GB18030编码为:B1B4 B8D6

4。2 以“数据库字符集和编码转换”为例
GBK编码为:FE57 FE54

UTF-8编码为:EEA09C EEA099

GB18030编码为:8336C9388336C935

5 编码转换示例

下面通过具体的例子看一下,这个例子中客户端使用GBK/GB18030编码,接口两端使用GBK18030编码,数据库服务器使用UTF-8编码:


数据库字符集和编码转换

转换涉及:

应用程序中编码和连接客户端编码之间的转换

连接服务器端编码和数据库服务器编码之间的转换

在上图中以橙红色箭头表示

以“数据库字符集和编码转换”为例,不同编码下在数据库服务器中的二进制串分别为:

GBK编码为:FE57 FE54

UTF-8编码为:EEA09C EEA099

GB18030编码为:8336C9388336C935

Socket:

编程接口保证发送给服务器端的字符编码和当前会话的client_encoding保持一致。

可以将client_encoding设成从应用程序获得的字符的当前编码

也可以获得当前会话的client_encoding,将从应用程序获得的字符转化成client_encoding设置的编码

Server:

client_encoding和server_encoding 之间的转换

根据数据库编码转换算法转换,把目标编码中没有的做法转换成问号“数据库字符集和编码转换

6平时遇到的问题

对字符进行了错误的编码解析,导致出现乱码。

字符在两个字符集中都存在,导致这部分字符变成“数据库字符集和编码转换