概述MySQL统计信息

程序员文章站 2023-12-06 17:07:10

mysql执行sql会经过sql解析和查询优化的过程，解析器将sql分解成数据结构并传递到后续步骤，查询优化器发现执行sql查询的最佳方案、生成执行计划。查询优化器决定sq...

mysql执行sql会经过sql解析和查询优化的过程，解析器将sql分解成数据结构并传递到后续步骤，查询优化器发现执行sql查询的最佳方案、生成执行计划。查询优化器决定sql如何执行，依赖于数据库的统计信息，下面我们介绍mysql 5.7中innodb统计信息的相关内容。

mysql统计信息的存储分为两种，非持久化和持久化统计信息。

一、非持久化统计信息

非持久化统计信息存储在内存里，如果数据库重启，统计信息将丢失。有两种方式可以设置为非持久化统计信息：

1 全局变量，

innodb_stats_persistent=off

2 create/alter表的参数，

stats_persistent=0

非持久化统计信息在以下情况会被自动更新：

1 执行analyze table

2 innodb_stats_on_metadata=on情况下，执show table status, show index, 查询 information_schema下的tables, statistics

3 启用--auto-rehash功能情况下，使用mysql client登录

4 表第一次被打开

5 距上一次更新统计信息，表1/16的数据被修改

非持久化统计信息的缺点显而易见，数据库重启后如果大量表开始更新统计信息，会对实例造成很大影响，所以目前都会使用持久化统计信息。

二、持久化统计信息

5.6.6开始，mysql默认使用了持久化统计信息，即innodb_stats_persistent=on，持久化统计信息保存在表mysql.innodb_table_stats和mysql.innodb_index_stats。

持久化统计信息在以下情况会被自动更新：

1 innodb_stats_auto_recalc=on

情况下，表中10%的数据被修改

2 增加新的索引

innodb_table_stats是表的统计信息，innodb_index_stats是索引的统计信息，各字段含义如下：

innodb_table_stats
database_name	数据库名
table_name	表名
last_update	统计信息最后一次更新时间
n_rows	表的行数
clustered_index_size	聚集索引的页的数量
sum_of_other_index_sizes	其他索引的页的数量

innodb_index_stats
database_name	数据库名
table_name	表名
index_name	索引名
last_update	统计信息最后一次更新时间
stat_name	统计信息名
stat_value	统计信息的值
sample_size	采样大小
stat_description	类型说明

为更好的理解innodb_index_stats，建一张测试表做说明：

create table t1 (
 a int, b int, c int, d int, e int, f int,
 primary key (a, b), key i1 (c, d), unique key i2uniq (e, f)
) engine=innodb;

写入数据如下：

概述MySQL统计信息

查看t1表的统计信息，需主要关注stat_name和stat_value字段

概述MySQL统计信息

tat_name=size时：stat_value表示索引的页的数量

stat_name=n_leaf_pages时：stat_value表示叶子节点的数量

stat_name=n_diff_pfxnn时：stat_value表示索引字段上唯一值的数量，此处做一下具体说明：

1、n_diff_pfx01表示索引第一列distinct之后的数量，如primary的a列，只有一个值1，所以index_name='primary' and stat_name='n_diff_pfx01'时，stat_value=1。

2、n_diff_pfx02表示索引前两列distinct之后的数量，如i2uniq的e,f列，有4个值，所以index_name='i2uniq' and stat_name='n_diff_pfx02'时，stat_value=4。

3、对于非唯一索引，会在原有列之后加上主键索引，如index_name='i1' and stat_name='n_diff_pfx03'，在原索引列c,d后加了主键列a，(c,d,a)的distinct结果为2。

了解了stat_name和stat_value的具体含义，就可以协助我们排查sql执行时为什么没有使用合适的索引，例如某个索引n_diff_pfxnn的stat_value远小于实际值，查询优化器认为该索引选择度较差，就有可能导致使用错误的索引。

三、统计信息不准确的处理

我们查看执行计划，发现未使用正确的索引，如果是innodb_index_stats中统计信息差别较大引起，可通过以下方式处理：

1、手动更新统计信息，注意执行过程中会加读锁：

analyzetable table_name;

2、如果更新后统计信息仍不准确，可考虑增加表采样的数据页，两种方式可以修改：

a) 全局变量innodb_stats_persistent_sample_pages，默认为20；

b) 单个表可以指定该表的采样：

alter table table_name stats_sample_pages=40;

经测试，此处stats_sample_pages的最大值是65535，超出会报错。

目前mysql并没有提供直方图的功能，某些情况下（如数据分布不均）仅仅更新统计信息不一定能得到准确的执行计划，只能通过index hint的方式指定索引。新版本8.0会增加直方图功能，让我们期待mysql越来越强大的功能吧！

上一篇：居理新房研究院：低频长周期场景下的算法设计

下一篇：湖南比较好的师范大专院校有哪些？附湖南全日制师范类大专院校排名

概述MySQL统计信息

一、非持久化统计信息

二、持久化统计信息

三、统计信息不准确的处理

C#实现TCP连接信息统计的方法

mysql SELECT语句去除某个字段的重复信息

mysql 获取当天发布的信息的语句

MySQL使用show status查看MySQL服务器状态信息

mysql中数据统计的技巧备忘录

使用HTML5捕捉音频与视频信息概述及实例

详解mysql 获取某个时间段每一天、每一个小时的统计数据

SQL Server自动更新统计信息的基本算法

PHP+MySQL统计该库中每个表的记录数并按递减顺序排列的方法

linux命令大全之ss命令详解(获取socket统计信息)