高性能MySQL--MySQL数据类型介绍和最优数据类型选择
MySQL支持的数据类型很多,那么选择合适的数据类型对于获得高性能就至关重要。那么就先了解各种类型的优缺点!
一、类型介绍
1、整型类型
整型类型有: TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT 。他们分别占8,16,24,32,64位储存空间。可存储的整数范围为-2^(N-1)到2^(N-1)-1,其中N是存储空间的位数。
还可以将整数类型设为 UNSIGNED ,这样几乎可以是其范围增大一倍。例如TINYINT范围是-128 - 127,而TINYINT UNSIGNED的范围是0-255。不过这两种只是在范围上有缺别,在存储空间和性能上都是一样的。
2、实数类型
对于实数类型,MySQL即支持精确类型(DECIMAL),也支持不精确类型(FLOAT,DOUBLE)。
DECIMAL类型允许最多存储65位数字,因此它可以存储比BIGINT还大的数字。而且在MySQL5.0或更高版本中,MySQL服务器自身实现的DECIMAL的高精度计算。但相比较浮点类型,因为CPU直接支持原声浮点计算,所以浮点类型计算会更快。
通常来说,浮点类型在存储相同的范围时,比DECIMAL使用更少的空间。FLOAT占用4个字节存储,DOUBLE占用8个字节存储,但相比FLOAT有更高的精度和更大的范围。浮点类型存储时在精度上会有各种各样的问题,例如当你只把一列设为FLOAT,而没有指定精度时,在存储1234567.33会变成1234570。
DECIMAL所占的字节比较特殊。它是在小数点前后分别使用每4个字节存储9位数字。具体看mysql手册说法:
所以我们使用最多的DECIMAL(10,2)所占的字节数为1+4+1+1=7个字节(小数点占一个字节)。
因为需要额外的计算开销和存储空间,所以应该尽量只在对小数进行精确计算时才使用DECIMAL--例如存储财务数据。当你的数据量比较大的时候,为了避免浮点存储计算不精确和DECIMAL精确计算代价高的问题,可以使用BIGINT代替DECIMAL,只需将原来需要存储的小数乘以相应的倍数即可(BIGINT的范围满足你的需求)。
3、字符串类型
VARCHAR类型用于存储可变长的字符串,所以它需要1或2个额外的字节记录字符串的长度:如果列的长度小于或等于255个字节,则只使用1个字节表示,否则使用2个字节表示。例如varchar(10)就需要11个字节,varchar(1000)则需要1002个字节。
VARCHAR节省了存储空间,所以对性能有所帮助。但由于行是变长的,在UPDATE时可能是原来的行更长,这就会导致需要做一些额外的工作。如果一个行占用的空间曾长,并且在页内没有更多的空间可以存储,这是INNODB就会分裂当前页来使行可以放进页内。
下面这些情况使用VARCHAR是合适的:
- 字符串列的最大长度比平均长度大很多
- 列的更新很少
- 使用了UTF-8这样的字符集,每个字符都是用不同的字节存储
CHAR类型是定长的:MySQL总是根据定义字符串的长度分配足够空间。因为CHAR会根据需要采用空格填充到字符串末尾,而且当你检索时,CHAR会删除末尾的空格。所以会有一个很有趣的事情发生,当你存储一个"Johnson "到char(10)时,检索出来的结果却是"Johnson",因为MySQL并不知道这空格是你存的还是系统自动填充的。
CHAR很适合存储很短的字符串或所有值都接近同一个长度。例如密码的MD5值。
BLOB和TEXT都是为了存储很大的数据类型而设计的字符串数据类型,分别采用二进制和字符方式存储。而且当它们存储的数据过大时,INNOSB会使用专门的‘外部’空间来存储数据,此时每个值的行内仅存储一个1 ~ 4个字节的指针,然后在外部区域存储真实的指。当需要对BLOB和TEXT排序时,它只对每个列的最前 max_sort_length 进行排序。这个值是可以配置的。
4、 枚举类型
有时候可以使用枚举类型代替常用的字符串类型。MySQL在内部会将每个值在列表中的位置保存为整数,并且在表的.frm文件中保存“数字-字符串”的映射关系。比如性别列,就可以用enum(男,女,未知),这里有些人可能用TINYINT代替枚举,实际我感觉这并不能带来性能的优化,只不过你把“数字-字符串”的映射关系搬到你的业务逻辑中处理,如果你的注释写的不清晰,反而会给新人带来困惑。
对于弱类型语言来说,枚举并不是狠友好。举个栗子:select id,name from users where id = 1; 和 select id,name from users where id = ‘1’; 得到的结果是一样的。因为ENUM内部存储是用的整型,所以在检索ENUM类型时也可以用整数,例如 select id,name from users where sex = 1; 和 select id,name from users where sex = '男'; 可以得到相同的结果。但
select id,name from users where sex = ‘1’;
就检索不到任何值。但如果你设计和使用的好,依然可以用。
5、日期和时间类型
日期和时间类型共有:DATE、TIME、YEAR、DATETIME和TIMESTAMP。其中DATE、TIME、YEAR分别占4,3,1字节,并且存储的时间格式为YYYY-MM-DD,HH:MM:SS,YYYY。这三种日期和时间类型相对用的比较少。这里主要介绍DATETIME和TIMESTAMP的区别。
DATETIME存储的范围大,从1001到9999年,精度为秒,存储格式为YYYY-MM-DD HH:MM:SS,占8个字节的存储空间。
TIMESTAMP存的范围要小很多,从1970年到2038年(快超出范围了),精度为秒,存储格式也为YYYY-MM-DD HH:MM:SS,但只占4个字节的存储空间。TIMESTAMP默认为NOT NULL,并且当插入时没有指定该列值时,会默认把MySQL当前时间插入进去。除了特殊行为,否则应该尽量使用TIMESTAMP,因为它比DATETIME占更少的存储空间。
这里要特殊说明的是,有时候有的人会将Unix时间戳存储为整数(我们公司就是这么干滴),但这不会带来任何收益。反而用整数保存时间戳的格式通常不方便处理,所以不推荐这样做。
二、选择优化的数据类型
- 更小的更长更好
一般情况下,应该尽量使用可以正确存储数据的最小数据类型。例如只需要存0~200的值,显然TINYINT UNSIGNED就足够了。更小的数据类型更快,因为它们占用更少的磁盘、内存和CPU,并且处理时需要的CPU周期也更少。
- 简单就好
简单的数据类型的操作通常需要更少的CPU周期。例如应该用整型存储IP而不是字符串。
- 尽量避免NULL
可为NULL的列会使用更多的存储空间,在MySQL里也需要特殊的处理。但可为NULL的列被索引时,每个索引记录需要一个额外的字节。
上一篇: 学习php设计模式 php实现工厂模式(factory)
下一篇: HTML第三章:表单