解析MySQL join查询的原理

程序员文章站 2022-02-07 11:10:33

mysql用nested-loop join算法实现join查询区分驱动表和被驱动表，以驱动表的结果集为循环的基础，访问被驱动表过滤数据，然后合并结果，驱动表在外循环、被驱动表在内循环。如果还有第三张...

mysql用nested-loop join算法实现join查询

区分驱动表和被驱动表，以驱动表的结果集为循环的基础，访问被驱动表过滤数据，然后合并结果，驱动表在外循环、被驱动表在内循环。
如果还有第三张参与join查询的表，则以合并的结果为驱动表，第三张表作为被驱动表，以此类推。

left join中的左表是驱动表、右表是被驱动表，right join刚好相反。

nested-loop join有三种实现

snlj

simple nested-loop join

假设a是驱动表，b是被驱动表。

解析MySQL join查询的原理

这里会扫描a表，用a的结果集作为外循环，
每循环一次，会扫描b表一遍(遍历内循环）

a表有n行，b表有m行。

snlj的开销如下（最大情况下）：

扫描a表1次；
扫描b表n次。
总共读取记录数：n + n * m。

为了专注于理解nested-loop join，这里不讨论带where子句的情况，以下相同。

bnlj

block nested-loop join

假设a是驱动表，b是被驱动表。

用来join的字段在被驱动表没有建立索引

解析MySQL join查询的原理

join buffer
mysql会将驱动表结果集中（多条记录）用来join的字段缓存到join buffer，
join buffer的特点是只需要扫描被驱动表一次，就能得到join buffer中所有记录的匹配结果，
减少扫描的次数。

join buffer默认大小256k，会生成n-1个join buffer缓冲区，n为参与join查询的表数量。

a表有n行，b表有m行。

bnlj的开销如下（最大情况下）：

扫描a表1次；
扫描b表x次；
x的大小取决于n、join字段的大小、join buffer的大小，通常x<<n。

inlj

index nested-loop join

假设a是驱动表，b是被驱动表。

用来join的字段在被驱动表建立了索引

聚集索引

解析MySQL join查询的原理

非聚集索引

解析MySQL join查询的原理

在这里我们假设您已对mysql的索引结构有了一定的了解，
如果没有的话，可以去看下：通过b+tree平衡多叉树理解innodb引擎的聚集和非聚集索引

这里会扫描a表，用a的结果集作为外循环，
然后通过b表的索引来检索，不会遍历b表。

a表有n行，b表有m行。

inlj的开销如下（最大情况下）：

扫描a表1次；
通过b表索引检索n次，成本比扫描b表n次会低很多；
回表：先找到非聚集索引，再找到聚集索引，会多一次磁盘io。

nlj优先级

inlj>bnlj>snlj

如何优化join查询效率

尽量将小表作为驱动表，大表作为被驱动表；
为参加join的字段在被驱动表建立聚集索引，其次是非聚集索引；
尽可能减少join的字段数量，或者使用长度比较小的字段来join，这样join buffer一次可以缓存更多条记录。

inner join时，mysql会自动将小表作为驱动表，大表作为被驱动表。

扫描整张表是成本非常高的操作。

到此这篇关于mysql join查询的原理的文章就介绍到这了,更多相关mysql join查询内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

解析MySQL join查询的原理

mysql用nested-loop join算法实现join查询

nested-loop join有三种实现

MySQL前缀索引导致的慢查询

神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库

清空mysql 查询缓存的可行方法_MySQL

利用MySQL的一个特性实现MySQL查询结果的分页显示_MySQL

MySQL 使用DQL命令查询数据的实现方法

查询mysql里面的datetime字段，结果赋给实体类中是Timestamp类型的属性

【大家的项目】 Rust nom 实现的 mysql binlog 解析工具

mysql查询ip地址段时注意的问题

MySql中关于正则表达式查询的使用方法介绍

MySQL查询时强制区分大小写的方法_MySQL