hive排序（order by,sort by,distribute by,cluster by）

程序员文章站 2022-04-29 18:28:43

...

全局排序（Order By）

Order By：全局排序，一个 Reducer

1．使用 ORDER BY 子句排序

ASC（ascend）: 升序（默认）

DESC（descend）: 降序

2．ORDER BY 子句在 SELECT 语句的结尾

3.不管设置多少reduce的数量，他只有一个reduce，结果只在一个文件中

我们现在有paixu这张表

hive排序（order by,sort by,distribute by,cluster by）

设置reduce的个数为3

hive (default)> set mapreduce.job.reduces=3;

查看reduce的个数，如果没有设置过的话默认是 -1，意思就是根据数据量来定reduce个数

hive (default)> set mapreduce.job.reduces;

将查询结果导入到文件系统才可以看出效果，这个文件路径如果没有的话会自动创建

hive (default)> insert overwrite local directory '/root/hivetext/order_by_res' row format delimited fields terminated by '\t' select * from paixu order by salary desc;

到指定路径下查看结果：

hive排序（order by,sort by,distribute by,cluster by）

每个 MapReduce 内部排序（Sort By）

Sort By：每个 Reducer 内部进行排序，对全局结果集来说不是排序。

将查询结果导入到文件中

hive (default)> insert overwrite local directory '/root/hivetext/sort_by_res' row format delimited fields terminated by '\t' select * from paixu sort by salary;

结果：

hive排序（order by,sort by,distribute by,cluster by）

如果数据量大的情况下，我们不指定分区字段，很容易造成数据倾斜

分区排序（Distribute By）

Distribute By：类似 MR 中 partition，进行分区，结合 sort by 使用。

注意，Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。

对于 distribute by 进行测试，一定要分配多 reduce 进行处理，否则无法看到 distribute by的效果

我们按照bumen分区，然后根据salary进行排序，还是将结果导入到文件中

我们设置2个reduce：set mapreduce.job.reduces=2;

hive (default)> insert overwrite local directory '/root/hivetext/distribute_by_sort_by' row format delimited fields terminated by '\t' select * from paixu distribute by bumen sort by salary desc;

查看结果：

hive排序（order by,sort by,distribute by,cluster by）

Cluster By

当 distribute by 和 sorts by 字段相同时，可以使用 cluster by 方式。

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。

但是排序只能是升序排序，不能指定排序规则为 ASC 或者 DESC。

下面这两种等价：

select * from paixu cluster by bumen;
select * from paixu distribute by bumen sort by bumen;

我们按照bumen分区并且按照bumen排序：

hive (default)> insert overwrite local directory '/root/hivetext/cluster_by' row format delimited fields terminated by '\t' select * from paixu cluster by bumen;

结果：

hive排序（order by,sort by,distribute by,cluster by）