Hive-分桶表、抽样查询

程序员文章站 2022-05-01 13:03:47

...

简介

对Hive(Inceptor)表分桶可以将表中记录按分桶键(字段)的哈希值分散进多个文件中，这些小文件称为桶。

分区针对的是数据的存储路径；分桶针对的是数据文件。

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。

分桶是将数据集分解成更容易管理的若*分的另一个技术。

优点

1，更快，桶为表加上额外结构，链接相同列划分了桶的表，可以使用map-side join更加高效。

2，取样sampling更高效。没有分区的话需要扫描整个数据集。

实施

1 创建普通表导入数据

create table tb_stu(
id int, 
name string)
row format delimited fields terminated by '\t';
load data local inpath "/data/stu/" into  table tb_stu ;

Hive-分桶表、抽样查询

2 创建分桶表

create table bucket_stu(
id int ,
name string
)
clustered by(id)
into 3 buckets
row format delimited fields terminated by '\t';

Hive-分桶表、抽样查询

3 开启分桶功能

set hive.enforce.bucketing=true;     -- 开启分桶

Hive-分桶表、抽样查询

4 使用insert into的方式导入数据到分桶表中

insert into table bucket_stu select * from tb_stu;

Hive-分桶表、抽样查询

抽样查询

从大量的数据中根据某个字段随机抽取数据

比如：

将表分成三份（不是均等的分）但是取三次数据都不会重复

对抽样的表是没有要求的 , 分桶表普通表都可以

select * from  buck_stu tablesample(bucket 1 out of 3 on id);

Hive-分桶表、抽样查询

select * from  buck_stu tablesample(bucket 2 out of 3 on id);

Hive-分桶表、抽样查询

select * from  buck_stu tablesample(bucket 3 out of 3 on id);

Hive-分桶表、抽样查询

Hive-分桶表、抽样查询

简介

优点

实施

1 创建普通表导入数据

2 创建分桶表

3 开启分桶功能

4 使用insert into的方式导入数据到分桶表中

抽样查询

SQL Server数据库按百分比查询出表中的记录数

六七, Hive 数据查询实操, 以及Hive的分区和分桶

Hive分桶表详情说明

数据库分库分表和带来的唯一ID、分页查询问题的解决

Hive的分桶表和分区表

MySQL使用MRG_MyISAM(MERGE)实现分表后查询的示例

基于springboot的ShardingSphere5.X的分库分表的解决方案之关联查询解决方案（三）

如果想实现分表，那么查询都是如何查询的呢

对于分表的后台老板查询

MySQL分表实现上百万上千万记录分布存储的批量查询设计模式详解_MySQL

Hive-分桶表 、抽样查询

简介

优点

实施

1 创建普通表 导入数据

2 创建分桶表

3 开启分桶功能

4 使用insert into的方式导入数据 到 分桶表中

抽样查询

SQL Server数据库按百分比查询出表中的记录数

六七, Hive 数据查询实操, 以及Hive的分区和分桶

Hive分桶表详情说明

数据库分库分表和带来的唯一ID、分页查询问题的解决

Hive的分桶表和分区表

MySQL使用MRG_MyISAM(MERGE)实现分表后查询的示例

基于springboot的ShardingSphere5.X的分库分表的解决方案之关联查询解决方案（三）

如果想实现分表，那么查询都是如何查询的呢

对于分表的后台老板查询

MySQL分表实现上百万上千万记录分布存储的批量查询设计模式详解_MySQL

Hive-分桶表、抽样查询

1 创建普通表导入数据

4 使用insert into的方式导入数据到分桶表中