快速回顾MySQL：汇总和分组

程序员文章站 2023-01-28 12:54:43

10.3 汇总数据我们经常需要汇总数据而不用把它们实际检索处出来，为此MySQL提供了专门的函数。使用这些函数，MySQL查询可用于检索数据，以便分析和报表的生成。这种类型的检索例子有以下几种：确定表中的行数（或者满足某个条件或包含某个特定值的行数）。获得表中行组的和。找出表列（或所有行或某 ......

10.3 汇总数据

我们经常需要汇总数据而不用把它们实际检索处出来，为此mysql提供了专门的函数。使用这些函数，mysql查询可用于检索数据，以便分析和报表的生成。这种类型的检索例子有以下几种：

确定表中的行数（或者满足某个条件或包含某个特定值的行数）。
获得表中行组的和。
找出表列（或所有行或某些特定的行）的最大值、最小值和平均值。

上述的例子都需要对表中数据（而不是实际数据本身）汇总。因此，返回实际表数据是对时间和处理资源的一种浪费（更不用说带宽了）。

mysql提供了5个聚集函数。

聚集函数（aggregate function）运行在行组上，计算和返回单个值的函数。

函数	说明
avg()	返回某列的平均值
count()	返回某列的行数
max()	返回某列的最大值
min()	返回某列的最小值
sum()	返回某列值之和

下面简单介绍这些函数

先创建下面的表：

create table student(
    sid int primary key,
    sname varchar(20),
    ssex  cahr(1)
);
create table score(
    sid int primary key,
    sname varchar(20),
    smath int,
    senglish int
);

10.3.1 avg()函数

avg()通过对表中行数计数并计算特定列值之和，求得该列的平均值。avg()可用来返回所有列的平均值，也可以用来返回特定列平均值。

avg()只能用来确定特定数值列的平均值，而且列名必须作为函数参数给出。为了获得多个列的平均值，必须使用多个avg()函数。
avg()函数忽略列值为null的行。

来使用avg()函数来查询成绩表score中数学成绩的平均分（自己随便加上几个数）：

select avg(smath) as avg_smath from score;

avg()也可用用来确定特定列平均值，配合where子句。

10.3.2 count()函数

count()函数确定表中行的数目或符合特定条件的行的数目。

count()函数有两种使用的方式：

使用count(*)对表中行的数目进行计数，不管表列中包含的是空值（null）还是非空值。
使用count(column)对特定列中具有值的行进行计数，忽略null值。

比如：返回学生总数：

select count(*) from student;

返回女生总数（特定列）：

select count(ssex) from student where ssex='女';

如果指定列名，则指定列的值为空的行被count()函数忽略，但如果count()函数中用的是星号（*），则不忽略。

10.3.3 max()函数

max() 返回指定列中的最大值。max() 要求指定列名。

比如：返回成绩表中数学成绩的最高分：

select max(smath) from score;

虽然max()一般用来找出最大的数值或日期值，但mysql允许将它用来返回任意列中的最大值，包括返回文本列中的最大值。在用于文本数据时，如果数据按相应的列排序，则max()返回最后一行。min()函数也是，但是相反，返回最前面的行。

max()、min()都是忽略列值为null的行。

10.3.4 min()函数

min() 返回指定列中的最小值。min() 要求指定列名。

比如：返回成绩表中数学成绩的最低分：

select min(smath) from score;

10.3.5 sum()函数

sum()用来返回指定列值的和（总计）。

比如返回一个班中的数学成绩的总分：

select sum(smath) from score;

利用标准的算术操作符，所有的聚集函数都可以用来执行多个列上的计算。

sum()函数忽略列值为null的行。

10.3.6 聚集不同值

以上5个聚集函数都可以如下使用：

对所有的行执行计算，指定参数或不给参数（max和min函数）；
只包含不同的值，指定distinct参数。（去重）

下面举例指定distinct参数的用法：比如成绩表中数学成绩的平均分，平均分只考虑各个不同的分数：

select avg(distinct smath) as avg_smath from score;

如果指定列名，则distinct只能用于count()，distinct不能用于count(*)，因此不允许使用count(distinct)，否则会产生错误。类似地，distinct必须使用列名，不能用于计算或表达式。

distinct可用于max()和min()，但是没有意义。

10.3.7 组合聚集函数

实际上select语句可根据需要包含多个聚集函数。

使用聚集函数，最好使用别名。

小结：聚集函数用来汇总数据，这些函数都是高效设计，它们返回的结果一般比你在自己的客户机应用程序中计算要快得多。

10.4 分组数据

前面已经学习了sql聚集函数来汇总数据。但是，比如：要求出学生表中男生和女生各有多少人。可用使用两条语句分别打印。下面介绍另一种方式：分组。

分组：把数据分为多个逻辑组，以便能对每个组进行聚集计算。

10.4.1 创建分组

分组时在select语句的group by子句中建立的。按照上面的例子，对学生表的男女生分组：

select ssex, count(ssex) as total from student group by ssex;

输出：

+---------+----------------+
| stu_sex |      total     |
+---------+----------------+
| 女      |              6 |
| 男      |             11 |
+---------+----------------+
3 rows in set (0.05 sec)

但是也可这样使用：

select ssex, count(*) as total from student group by ssex;

输出结果同上。

为什么会这样？？因为使用了group by，就不必指定要计算和估值得每个组了。系统会自动完成。group by子句指示mysql分组数据，然后对每个组而不是整个结果集进行聚集。

在具体使用group by子句前，需要知道一些重要的规定：

group by子句可以包括任意数目的列。这使得能对分组进行嵌套，为数据分组提供更细致的控制。
如果在group by子句中嵌套了分组，数据将在最后规定的分组上进行汇总。换句话说，在建立分组时，指定的所有列都一起计算（所以不能从个别的列取回数据）。
group by子句中列出的每个列都必须是检索列或有效的表达式（但不能是聚集函数）。如果在select中使用表达式，则必须在group by子句中指定相同的表达式。不能使用别名。
除聚集计算语句外，select语句中的每个列都必须在group by子句中给出。
如果分组列中具有null值，则null将作为一个分组返回。如果列中有多行null值，它们将分为一组。
group by子句必须出现在where子句之后，order by子句之前。

使用with rollup关键字，可以得到每个分组以及每个分组汇总级别（针对每个分组）的值
比如：

select ssex, count(*) as total 
from student 
group by ssex with rollup;

输出：

+---------+-------+
| stu_sex | total |
+---------+-------+
| 女      |    10 |
| 男      |    16 |
| null    |    26 |
+---------+-------+
3 rows in set (0.05 sec)

引入一个函数：ifnull(expression, alt_value):ifnull() 函数用于判断第一个表达式是否为 null，如果为 null 则返回第二个参数的值，如果不为 null 则返回第一个参数的值。

select ifnull(ssex,'总计')  as ssex, count(*) as total 
from student 
group by ssex with rollup;

输出：

+---------+-------+
| stu_sex | total |
+---------+-------+
| 女      |    10 |
| 男      |    16 |
| 总计    |    26 |
+---------+-------+
3 rows in set (0.05 sec)

10.4.2 过滤分组

mysql允许过滤分组，规定包括哪些分组，排除哪些分组。但是where子句过滤指定的是行而不是分组。所以mysql提供了having子句，having子句类似于where，至今为止的所有类型的where子句都可以用having子句来替代。唯一的差别是where子句过滤行，而having子句过滤分组（即是先分组再过滤）。

比如：显示学生表的男生或者女生人数大于15个的。

select ssex, count(*) as total 
from student 
group by ssex having count(*)>=15;

注意：having子句在group by之后，因为是对分组的结果进行过滤。而where子句是对行进行过滤，所以必须在group by之前。所以where子句过滤的行可能会影响到group by的分组结果。

那么可以同时使用where子句和having子句吗？？答案是可以的。

10.4.3 分组和排序

说一说排序（order by）和分组（group by）的区别：

排序	分组
排序产生的输出	输出可能不是分组的顺序
任意列都可以使用（甚至非选择的列也可以使用）	只能使用选择列或表达式列，而且必须使用每个选择列表达式
不一定需要	如果与聚集函数一起使用列（或表达式），则必须使用

上面表格的第一行，可以经常发现group by分组的数据确实是以分组顺序输出的，但情况并不总这样，它并不是sql规范所要求的。此外，用户可能会要求以不同于分组的顺序排序。仅因为你以某种方式分组数据，并不表示你需要以相同的方式排序输出。应该提供明确的brder by子句，即使其效果等同于group by子句的输出结果。

所以一般使用group by子句最好跟上order by子句。

那么在位置如何放置：order by子句一定是放在sql语句最后的。

所以修改上面的语句：例子举得不是很好，就看看怎么写。

select ssex, count(*) as total 
from student 
group by ssex 
having count(*)>=15
order by ssex;

小结：学习了如何用sql聚集函数对数据进行汇总计算。也介绍如何使用group up子句对数据组进行这些汇总金酸，返回每个组的结果。而且还学了having子句过滤特定的组，where和having之间以及order by和group by之间的差异

上一篇： Scott 数据映射 MySQL代码实现分享

下一篇：江都之乱时隋炀帝身边的护卫去了哪里他们最后的下场又是什么