欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

高性能MySQL--MySQL数据类型介绍和最优数据类型选择

程序员文章站 2022-05-14 07:53:08
MySQL支持的数据类型很多,那么选择合适的数据类型对于获得高性能就至关重要。那么就先了解各种类型的优缺点! 一、类型介绍 1、整型类型 整型类型有: TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT 。他们分别占8,16,24,32,64位储存空间。可存储的整数范围为-2 ......

MySQL支持的数据类型很多,那么选择合适的数据类型对于获得高性能就至关重要。那么就先了解各种类型的优缺点!

一、类型介绍

1、整型类型

  整型类型有: TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT 。他们分别占8,16,24,32,64位储存空间。可存储的整数范围为-2^(N-1)到2^(N-1)-1,其中N是存储空间的位数。

还可以将整数类型设为 UNSIGNED ,这样几乎可以是其范围增大一倍。例如TINYINT范围是-128 - 127,而TINYINT UNSIGNED的范围是0-255。不过这两种只是在范围上有缺别,在存储空间和性能上都是一样的。

 

2、实数类型

  对于实数类型,MySQL即支持精确类型(DECIMAL),也支持不精确类型(FLOAT,DOUBLE)。

  DECIMAL类型允许最多存储65位数字,因此它可以存储比BIGINT还大的数字。而且在MySQL5.0或更高版本中,MySQL服务器自身实现的DECIMAL的高精度计算。但相比较浮点类型,因为CPU直接支持原声浮点计算,所以浮点类型计算会更快。

  通常来说,浮点类型在存储相同的范围时,比DECIMAL使用更少的空间。FLOAT占用4个字节存储,DOUBLE占用8个字节存储,但相比FLOAT有更高的精度和更大的范围。浮点类型存储时在精度上会有各种各样的问题,例如当你只把一列设为FLOAT,而没有指定精度时,在存储1234567.33会变成1234570。

  DECIMAL所占的字节比较特殊。它是在小数点前后分别使用每4个字节存储9位数字。具体看mysql手册说法:

高性能MySQL--MySQL数据类型介绍和最优数据类型选择

所以我们使用最多的DECIMAL(10,2)所占的字节数为1+4+1+1=7个字节(小数点占一个字节)。

因为需要额外的计算开销和存储空间,所以应该尽量只在对小数进行精确计算时才使用DECIMAL--例如存储财务数据。当你的数据量比较大的时候,为了避免浮点存储计算不精确和DECIMAL精确计算代价高的问题,可以使用BIGINT代替DECIMAL,只需将原来需要存储的小数乘以相应的倍数即可(BIGINT的范围满足你的需求)。

 

3、字符串类型

  VARCHAR类型用于存储可变长的字符串,所以它需要1或2个额外的字节记录字符串的长度:如果列的长度小于或等于255个字节,则只使用1个字节表示,否则使用2个字节表示。例如varchar(10)就需要11个字节,varchar(1000)则需要1002个字节。

  VARCHAR节省了存储空间,所以对性能有所帮助。但由于行是变长的,在UPDATE时可能是原来的行更长,这就会导致需要做一些额外的工作。如果一个行占用的空间曾长,并且在页内没有更多的空间可以存储,这是INNODB就会分裂当前页来使行可以放进页内。

  下面这些情况使用VARCHAR是合适的:

  • 字符串列的最大长度比平均长度大很多
  • 列的更新很少
  • 使用了UTF-8这样的字符集,每个字符都是用不同的字节存储

 

  CHAR类型是定长的:MySQL总是根据定义字符串的长度分配足够空间。因为CHAR会根据需要采用空格填充到字符串末尾,而且当你检索时,CHAR会删除末尾的空格。所以会有一个很有趣的事情发生,当你存储一个"Johnson  "到char(10)时,检索出来的结果却是"Johnson",因为MySQL并不知道这空格是你存的还是系统自动填充的。

  CHAR很适合存储很短的字符串或所有值都接近同一个长度。例如密码的MD5值。

 

  BLOB和TEXT都是为了存储很大的数据类型而设计的字符串数据类型,分别采用二进制和字符方式存储。而且当它们存储的数据过大时,INNOSB会使用专门的‘外部’空间来存储数据,此时每个值的行内仅存储一个1 ~ 4个字节的指针,然后在外部区域存储真实的指。当需要对BLOB和TEXT排序时,它只对每个列的最前 max_sort_length 进行排序。这个值是可以配置的。

 

4、 枚举类型

  有时候可以使用枚举类型代替常用的字符串类型。MySQL在内部会将每个值在列表中的位置保存为整数,并且在表的.frm文件中保存“数字-字符串”的映射关系。比如性别列,就可以用enum(男,女,未知),这里有些人可能用TINYINT代替枚举,实际我感觉这并不能带来性能的优化,只不过你把“数字-字符串”的映射关系搬到你的业务逻辑中处理,如果你的注释写的不清晰,反而会给新人带来困惑。

  对于弱类型语言来说,枚举并不是狠友好。举个栗子:select id,name from users where id = 1; 和 select id,name from users where id = ‘1’; 得到的结果是一样的。因为ENUM内部存储是用的整型,所以在检索ENUM类型时也可以用整数,例如 select id,name from users where sex = 1; 和 select id,name from users where sex = '男'; 可以得到相同的结果。但

select id,name from users where sex = ‘1’;

就检索不到任何值。但如果你设计和使用的好,依然可以用。

 

5、日期和时间类型

  日期和时间类型共有:DATE、TIME、YEAR、DATETIME和TIMESTAMP。其中DATE、TIME、YEAR分别占4,3,1字节,并且存储的时间格式为YYYY-MM-DD,HH:MM:SS,YYYY。这三种日期和时间类型相对用的比较少。这里主要介绍DATETIME和TIMESTAMP的区别。

  DATETIME存储的范围大,从1001到9999年,精度为秒,存储格式为YYYY-MM-DD HH:MM:SS,占8个字节的存储空间。

  TIMESTAMP存的范围要小很多,从1970年到2038年(快超出范围了),精度为秒,存储格式也为YYYY-MM-DD HH:MM:SS,但只占4个字节的存储空间。TIMESTAMP默认为NOT NULL,并且当插入时没有指定该列值时,会默认把MySQL当前时间插入进去。除了特殊行为,否则应该尽量使用TIMESTAMP,因为它比DATETIME占更少的存储空间。

  这里要特殊说明的是,有时候有的人会将Unix时间戳存储为整数(我们公司就是这么干滴),但这不会带来任何收益。反而用整数保存时间戳的格式通常不方便处理,所以不推荐这样做。

 

二、选择优化的数据类型

  • 更小的更长更好

    一般情况下,应该尽量使用可以正确存储数据的最小数据类型。例如只需要存0~200的值,显然TINYINT UNSIGNED就足够了。更小的数据类型更快,因为它们占用更少的磁盘、内存和CPU,并且处理时需要的CPU周期也更少。

  • 简单就好

    简单的数据类型的操作通常需要更少的CPU周期。例如应该用整型存储IP而不是字符串。

  • 尽量避免NULL

    可为NULL的列会使用更多的存储空间,在MySQL里也需要特殊的处理。但可为NULL的列被索引时,每个索引记录需要一个额外的字节。