SQL中distinct 和 row_number() over() 的区别及用法

程序员文章站 2023-11-05 22:05:28

1 前言在咱们编写 sql 语句操作数据库中的数据的时候，有可能会遇到一些不太爽的问题，例如对于同一字段拥有相同名称的记录，我们只需要显示一条，但实际上数据库中可能含有...

1 前言

在咱们编写 sql 语句操作数据库中的数据的时候，有可能会遇到一些不太爽的问题，例如对于同一字段拥有相同名称的记录，我们只需要显示一条，但实际上数据库中可能含有多条拥有相同名称的记录，从而在检索的时候，显示多条记录，这就有违咱们的初衷啦！因此，为了避免这种情况的发生，咱们就需要进行“去重”处理啦，那么何为“去重”呢？说白了，就是对同一字段让拥有相同内容的记录只显示一条记录。

那么，如何实现“去重”的功能呢？对此，咱们有两种方式可以实现该功能。

第一种，在编写 select 语句的时候，添加 distinct 关键词；

第二种，在编写 select 语句的时候，调用 row_number() over() 函数。

以上两种方式都可以实现“去重”功能，那两者之间有何异同呢？接下来，作者将给出详细的说明。

2 distinct

在 sql 中，关键字 distinct 用于返回唯一不同的值。其语法格式为：

select distinct 列名称 from 表名称

假设有一个表“ceshidemo”，包含两个字段，分别 name 和 age，具体格式如下：

SQL中distinct 和 row_number() over() 的区别及用法

观察以上的表，咱们会发现：拥有相同 name 的记录有两条，拥有相同 age 的记录有三条。如果咱们运行下面这条 sql 语句，

/**
* 其中 ppprder 为 schema 的名字，即表 ceshidemo 在 ppprder 中
*/

select name from ppprder.ceshidemo

将会得到如下结果：

SQL中distinct 和 row_number() over() 的区别及用法

观察该结果，咱们会发现在以上的四条记录中，包含两条 name 值相同的记录，即第 2 条记录和第 3 条记录的值都为“gavin”。那么，如果咱们想让拥有相同 name 的记录只显示一条该如何实现呢？这时，就需要用到 distinct 关键字啦！接下来，运行如下 sql 语句，

select distinct name from ppprder.ceshidemo

将会得到如下结果：

SQL中distinct 和 row_number() over() 的区别及用法

观察该结果，显然咱们的要求得到实现啦！但是，咱们不禁会想到，如果将 distinct 关键字同时作用在两个字段上将会产生什么效果呢？既然想到了，咱们就试试呗，运行如下 sql 语句，

select distinct name, age from ppprder.ceshidemo

得到的结果如下所示：

SQL中distinct 和 row_number() over() 的区别及用法

观察该结果，哎呀，貌似没有作用啊？她将全部的记录都显示出来了啊！其中 name 值相同的记录有两条，age 值相同的记录有三条，完全没有变化啊！但事实上，结果就应该是这样的。因为当 distinct 作用在多个字段的时候，她只会将所有字段值都相同的记录“去重”掉，显然咱们“可怜”的四条记录并不满足该条件，因此 distinct 会认为上面四条记录并不相同。空口无凭，接下来，咱们再向表“ceshidemo”中添加一条完全相同的记录，验证一下即可。添加一条记录后的表如下所示：

SQL中distinct 和 row_number() over() 的区别及用法

再运行如下的 sql 语句，

select distinct name, age from ppprder.ceshidemo

得到的结果如下所示：

SQL中distinct 和 row_number() over() 的区别及用法

观察该结果，完美的验证了咱们上面的结论。

此外，有一点需要大家特别注意，即：关键字 distinct 只能放在 sql 语句中所有字段的最前面才能起作用，如果放错位置，sql 不会报错，但也不会起到任何效果。

3 row_number() over()

在 sql server 数据库中，为咱们提供了一个函数 row_number() 用于给数据库表中的记录进行标号，在使用的时候，其后还跟着一个函数 over()，而函数 over() 的作用是将表中的记录进行分组和排序。两者使用的语法为：

row_number() over(partition by column1 order by column2)

意为：将表中的记录按字段 column1进行分组，按字段 column2 进行排序，其中

partition by：表示分组order by：表示排序

接下来，咱们还用表“ceshidemo”中的数据进行测试。首先，给出没有使用 row_number() over() 函数时查询的结果，如下所示：

SQL中distinct 和 row_number() over() 的区别及用法

然后，运行如下 sql 语句，

select ppprder.ceshidemo.*, row_number() over(partition by age order by name desc) from ppprder.ceshidemo

得到的结果如下所示：

SQL中distinct 和 row_number() over() 的区别及用法

从上面的结果可以看出，其在原表的基础上，多了一列标有数字排序的列。那么反过来分析咱们运行的 sql 语句，发现其确实按字段 age 的值进行分组了，也按字段 name 的值进行排序啦！因此，函数的功能得到了验证。

接下来，咱们就研究如何用 row_number() over() 函数实现“去重”的功能。通过观察上面的结果，咱们可以发现，如果以 name 分组，以 age 排序，然后再取每组的第一个记录或许就可以实现“去重”的功能啊！那么试试看，运行如下 sql 语句，

/*
* 其中 rn 表示最后添加的那一列
*/

select * from 
(select ppprder.ceshidemo.*, row_number() over(partition by name order by age desc) rn from ppprder.ceshidemo)
where rn = 1

运行后，得到的结果如下所示：

SQL中distinct 和 row_number() over() 的区别及用法

观察以上的结果，我们发现，哎呀，数据“去重”的功能一不小心就被咱们实现了啊！不过很遗憾，如果咱们细心的话，会发现一个很不爽的事情，那就是在执行以上 sql 语句进行“去重”的时候，有一条 name 值为“gavin”、age 值为“18”的记录被过滤掉了，但是在现实生活会中，同名不同年龄的事情太正常了。

4 总结

通过阅读及实践以上内容，咱们已经知道了，无论是用关键字 distinct 还是用函数 row_number() over() 都可以实现数据“去重”的功能。但是在实现使用的过程中，咱们要特别注意两者的用法特点以及区别。

在使用关键字 distinct 的时候，咱们要知道其作用于单个字段和多个字段的时候是有区别的，作用于单个字段时，其“去重”的是表中所有该字段值重复的数据；作用于多个字段的时候，其“去重”的表中所有字段（即 distinct 具体作用的多个字段）值都相同的数据。

在使用函数 row_number() over() 的时候，其是按先分组排序后，再取出每组的第一条记录来进行“去重”的（在本篇博文中如此）。当然，在此处咱们还可以通过不同的限制条件来进行“去重”，具体如何实现，就需要大家自己去动脑思考啦！

最后，在本篇博文中，作者详述了自己对用关键字 distinct 和函数 row_number() over() 进行数据“去重”的一些认识，希望以上的内容能够对大家有所帮助！

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

上一篇：支气管炎的三种食疗方法支气管炎的三种食疗方法推荐

下一篇： C#实现将程序运行信息写入日志的方法

SQL中distinct 和 row_number() over() 的区别及用法

SQL中distinct 和 row_number() over() 的区别及用法

php中get_cfg_var()和ini_get()的用法及区别

Content-Type中application/x-www-form-urlencoded和multipart/form-data的区别及用法详解

vuex中store存储store.commit和store.dispatch的区别及用法

button 和input 的区别及在表单form中的用法

SQL中CUBE和ROLLUP函数的用法及区别

SQL中UNION ALL 和UNION的区别及使用

数据库SQL中having和where的用法区别

php中echo、print和print_r的区别点及用法总结

php中get_cfg_var()和ini_get()的用法及区别