左匹配原则，聚集索引，回表查询，索引覆盖你真的懂了吗

程序员文章站 2022-04-15 21:01:46

一个问题有一张表test，这张表除了主键id外，还有a，b, c 三列假设给这三个字段建一个复合索引 index_abc (a, b, c)，问，下面几种查询中，哪种查询会用到索引 index_abc ？ 1. 查询一 select * from test where a > 1000 and ......

一个问题

有一张表test，这张表除了主键id外，还有a，b, c 三列

假设给这三个字段建一个复合索引 index_abc (a, b, c)，问，下面几种查询中，哪种查询会用到索引 index_abc ？

1. 查询一

select * from test where a > 1000 and b > 1000;

2. 查询二

select * from test where a > 1000 and c > 1000；

3. 查询三

select * from test where b > 1000 and c > 1000;

这是一个经典的面试题，由这个问题，我可以相关问你，什么是 左匹配原则？什么是 聚集索引？什么是 索引覆盖？什么是回表？

下面给大家捋一捋，以下试验基于mysql5.7-innodb

左匹配原则

接着上面的问题，回到刚刚的三个查询上，首先，我们怎么知道查询有没有用到索引？有没有什么命令是可以帮助我们分析查询语句呢？答案当然是有的，那就 explain 命令

我们分别对上面的语句进行 explain，看看有哪些信息：

mysql> explain select * from test where a > 1000 and b > 1000;
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
| id | select_type | table | partitions | type  | possible_keys | key       | key_len | ref  | rows | filtered | extra                    |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
|  1 | simple      | test  | null       | range | index_abc     | index_abc | 4       | null | 5060 |    33.33 | using where; using index |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+

mysql> explain select * from test where a > 1000 and c > 1000;
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
| id | select_type | table | partitions | type  | possible_keys | key       | key_len | ref  | rows | filtered | extra                    |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
|  1 | simple      | test  | null       | range | index_abc     | index_abc | 4       | null | 5060 |    33.33 | using where; using index |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+

mysql> explain select * from test where b > 1000 and c > 1000;
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+-------+----------+--------------------------+
| id | select_type | table | partitions | type  | possible_keys | key       | key_len | ref  | rows  | filtered | extra                    |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+-------+----------+--------------------------+
|  1 | simple      | test  | null       | index | null          | index_abc | 12      | null | 10120 |    11.11 | using where; using index |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+-------+----------+--------------------------+

我们可以看到，对查询语句执行 explain 后，返回了12列信息，各列说明如下：

cloumn	meaning
id	查询标识符
select_type	查询类型
table	输出行的表
partitions	匹配的分区
type	联接类型，确切的说是一种数据库引擎查找表的一种方式
possible_keys	可以选择的可能索引，但不一定被查询实际使用
key	实际选择的索引
key_len	所选键的长度
ref	与索引相比的列
rows	估计要查询的列
filtered	按表条件筛选的行百分比
extra	其他信息

通常分析sql语句，我们只关注type，possible_keys，key，rows

对三条查询语句进行explain后，我们发现：

where a > 1000 and b > 1000 和 where a > 1000 and c > 1000条件的查询结果是一样的，其中type指明的索引查找方式为range，possible_keys 可能使用的索引为 index_abc，key 实际使用的索引为 index_abc
where b > 1000 and c > 1000 条件的查询中，type的值为index，possible_keys为null，key的值为 index_abc

上面的range 和 index有什么区别呢？

range：仅检索给定范围内的行，使用索引选择行
index：索引联接类型与 all 相同，只不过扫描索引树，有两种情况：
- 如果索引是查询的 覆盖索引（后文有讲），并且可用于满足表中所需的所有数据，则仅扫描索引树。在这种情况下，"额外"（extra）列表示使用索引。仅索引扫描通常比全部扫描快，因为索引的大小通常小于表数据
- 使用索引中的读取执行完整的表扫描，以按索引顺序查找数据行。使用索引不显示在"额外"列中，也就是说：如果不是覆盖索引，使用索引不显示在"额外"列中

换句话说，

range是使用了索引，并且能够在对应的索引树上使用快速查找的方法进行快速查找，是有范围的查找，使用了range，就一定用到了我们建的索引，而index只能是通过扫描整个索引树

上面也提到all，那么type还有哪几种比较常见的值呢？下面列举一下（具体其他类型值，看以参考）：

system：该表只有一行（= 系统表）。这是 const 联接类型的特殊情况
const：表示通过索引一次就找到了，因为只匹配一行数据，所以很快。如将主键置于where列表中，mysql就能将该查询转换为一个常量表最多有一个匹配行，在查询开始时读取该行。由于只有一行，因此优化器的其余部分可以将该行中的列中的值视为常量。将主键或 unique 索引的所有部分与常量值进行比较时，将使用 const
eq_ref：唯一性索引扫描，对于前一表中的每一行组合，将从此表中读取一行，常见于主键或唯一索引扫描。除了system 和 const 类型之外，这是最佳联接类型
ref：非唯一性索引扫描，对于前一表中的每一行组合，将从此表中读取具有匹配索引值的所有行
all：将遍历全表以找到匹配的行

好，回到上面三条查询语句上，为什么where条件为a > 1000 and b > 1000 和 a > 1000 and c > 1000 的 type 是 range（用到索引）, 而where条件为 b > 1000 and c > 1000 的 type 是 index 呢？这里面索引树（b+树）的构建方式及存储结构有关

那么复合索引b+树是怎样的呢？看图，一图胜百字

左匹配原则，聚集索引，回表查询，索引覆盖你真的懂了吗

对于索引来说只不过比单值索引多了几列，而这些索引列全都出现在索引树上。对于复合索引，存储引擎会首先根据第一个索引列排序，如上图我们可以单看第一个索引列，如，1 1 4 15 18....他是单调递增的；如果第一列相等则再根据第二列排序，依次类推就构成了上图的索引树

以创建的索引 index_abc (a, b, c)为例，如上图所示，每个结点都有三个键值，从上往下分别对应这a，b，c三个索引列

构造索引树时，首先使用多列索引的第一列构建的索引树，以 index_abc (a, b, c) 为例就是优先使用a列构建，当b列值相等时再以c列排序

因此，索引的第一列也就是a列可以说是从左到右单调递增的，但我们看b列和c列并没有这个特性，它们只能在a列值相等的情况下这个小范围内递增，看上图的左下角的结点可理解这点

划重点：由于复合索引树建的时候就是按照当初你建立索引时（index_abc (a, b, c)）对应索引列的顺序从左到右来建的，因此你使用的时候你也得按照从左到右的规则来用，这就是索引的 左匹配原则

所以为什么上面 where a > 1000 and b > 1000 和 where a > 1000 and c > 1000 条件查询的type是range，而 where b > 1000 and c > 1000 的type是index 你明白来吗？

回表，聚集索引

我们都知道，b+树有个特点就是，其叶子结点存的是关键字和数据，非叶子结点存的都是索引关键字，那么复合索引构造的b+树中，其叶子结点存的数据是什么呢？答案该条数据的主键值

划重点：也就是说，利用复合索引查找数据的流程是，先在复合索引的b+树上找到对应数据的主键值（id，注：myisam的索引叶子节点存储记录指针）,然后再根据这个主键（id）值，到主键索引树（b+树）上查找这个id所在的行记录（主键索引树的页子结点存储的关键字和对应的行记录数据），最后查找结束。这个查找流程操作也叫 回表查询

有没有注意到，b+树中，有的叶子结点存储的行记录，有点存储的是主键值

划重点：

叶子结点存储行记录的索引又叫 聚集索引，innodb必须要有，且只有一个聚集索引：
- 如果定义了主键，则主键索引就是 聚集索引
- 如果没有定义主键，则第一个not null unique列是聚集索引
- 否则，innodb会创建一个隐藏的row-id作为聚集索引
叶子结点存储主键值叫普通索引，也叫 非聚集索引

覆盖索引

还是上面的例子，我们再次看一下 where条件为 b > 1000 and c > 1000 的查询 explain后的信息

mysql> explain select * from test where b > 1000 and c > 1000;
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+-------+----------+--------------------------+
| id | select_type | table | partitions | type  | possible_keys | key       | key_len | ref  | rows  | filtered | extra                    |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+-------+----------+--------------------------+
|  1 | simple      | test  | null       | index | null          | index_abc | 12      | null | 10120 |    11.11 | using where; using index |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+-------+----------+--------------------------+

按照我们刚刚讲的索引的 左匹配原则，这个查询应该没有有效用上我们建的索引 index_abc ，为什么key（实际使用到的索引）列却是 index_abc？这里就涉及到了 覆盖索引

什么是覆盖索引？覆盖索引 就是：sql只需要通过索引就可以返回查询所需要的数据，而不必通过二级索引查到主键之后再去查询数据（即回表查询）

不难理解，因为我们的test表本来就只有四个字段，id, a, b, c，其中（a, b, c）建立列索引，id又是主键，复合索引树的叶子结点存的就是主键值，所以 select * from test where b > 1000 and c > 1000 查找的数据通过复合索引树就可以全部得到，不需要回表，因此这里面用到了索引，这个索引树实际是什么索引的索引树呢？，当然是index_abc了，因为b, c 列包含在复合索引列中

为什么possible_keys列（可能使用到的索引）为null，因为搜索引擎找不到以b列开头的索引

所以，使用列索引覆盖，extra列也就有列using index

最后，为什么 a > 1000 and b > 1000 和 b > 1000 and a > 1000，explain的结果一样呢？

mysql> explain select * from test where a > 1000 and b > 1000;
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
| id | select_type | table | partitions | type  | possible_keys | key       | key_len | ref  | rows | filtered | extra                    |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
|  1 | simple      | test  | null       | range | index_abc     | index_abc | 4       | null | 5060 |    33.33 | using where; using index |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+

mysql> explain select * from test where b > 1000 and a > 1000;
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
| id | select_type | table | partitions | type  | possible_keys | key       | key_len | ref  | rows | filtered | extra                    |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+
|  1 | simple      | test  | null       | range | index_abc     | index_abc | 4       | null | 5060 |    33.33 | using where; using index |
+----+-------------+-------+------------+-------+---------------+-----------+---------+------+------+----------+--------------------------+

这就该我们mysql 查询优化器 干活了，mysql查询优化器会判断纠正这条sql语句该以什么样的顺序执行效率最高，最后才生成真正的执行计划。

至此，索引的左匹配原则，聚集索引，回表查询，覆盖索引就分享完了

如有不妥之处，欢迎指正，交流

点个赞再走呗～thxs~~~~

上一篇：一篇文章快速搞懂Redis的慢查询分析

下一篇： mongodb分片集群搭建

左匹配原则，聚集索引，回表查询，索引覆盖 你真的懂了吗

一个问题

左匹配原则

回表，聚集索引

覆盖索引

左匹配原则，聚集索引，回表查询，索引覆盖 你真的懂了吗

左匹配原则，聚集索引，回表查询，索引覆盖 你真的懂了吗

左匹配原则，聚集索引，回表查询，索引覆盖 你真的懂了吗

左匹配原则，聚集索引，回表查询，索引覆盖你真的懂了吗

左匹配原则，聚集索引，回表查询，索引覆盖你真的懂了吗

左匹配原则，聚集索引，回表查询，索引覆盖你真的懂了吗

左匹配原则，聚集索引，回表查询，索引覆盖你真的懂了吗