hadoop排序 -- 全排序

程序员文章站 2022-06-24 20:57:37

目录一、关于Reducer全排序 1.1、什么叫全排序 1.2、分区的标准是什么二、全排序的三种方式 2.1、一个Reducer 2.2、自定义分区函数 2.3、采样一、关于Reducer全排序 1.1、什么叫全排序？在所有的分区（Reducer）中，KEY都是有序的：正确举例： ......

一、关于Reducer全排序

　　1.1、　　什么叫全排序

　　1.2、　　分区的标准是什么

二、全排序的三种方式

　　2.1、　　一个Reducer

　　2.2、　　自定义分区函数

　　2.3、　　采样

　　一、关于Reducer全排序　　

1.1、什么叫全排序？

在所有的分区（Reducer）中，KEY都是有序的：

正确举例：如Reducer分区1中的key是1、3、4，分区2中的key是5、8、9
错误举例：如Reducer分区1中的key是1、3、4，分区2中的key是2、7、9

1.2、数据分区的标准是什么？

默认的分区方式是根据mapper后的key的hash值，除以Reducer的分区数量，取其余数判定；例：

某key的hash值是999，此时有3个分区（Reducer），则999 % 3 = 0；则该key和其对应value会分在第一个区（同理，当余数为1，2时会分在对应的另外两个区）。

注意：若key的类型是Text类（或IntWritable等）的，则计算的是Text类型的key的hash值，而非通过Text获取到的String（或int等）类型的hash值。

也可自定义分区的判定方式，见下2.2、自定义分区函数

　　二、全排序的三种方式　　

一个Reduce
自定义分区函数
采样

2.1、一个Reduce

只有一个Reduce分区，自然是全排序效果

2.2、自定义分区函数

创建一个继承Partitioner的类，如：Partition
重写其”getPartition“方法，作为判断分区的依据
在main的job中将其加入：job.setPartitionerClass(Partition.class);

以随机分区为例，伪代码如下：

 1 public class Partition extends Partitioner <Text,IntWritable>{
 2 
 3     @Override
 4     public int getPartition(Text text, IntWritable intWritable, int numPartitions) {
 5         Random r = new Random();
 6         //根据分区的数量（numPartitions），获取一个随机值返回，返回的值作为Key判断分区的依据
 7         int i = r.nextInt(numPartitions);
 8         return i;
 9     }
10 }
11 
12 public class RandomAPP {
13     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
14         ......
15 
16         //放判断放入分区的方式(随机放入)
17         job.setPartitionerClass(Partition.class);
18         
19         ......
20 
21         //等待执行MapperReducer
22         job.waitForCompletion(true)；
23     }
24 }

2.3、采样：TotalOrderPartition

RandomSampler：随机采样，性能差，适合乱序数据
IntervalSampler：间隔采样，性能较好，适合有序数据
SplitSampler：切片采样，性能较好，适合有序数据

以随机采样为例，伪代码如下：

注:以下需要放在App中设置配置文件的后面

 1         //在App中指定分区函数类
 2         job.setPartitionerClass(TotalOrderPartition.class);
 3 
 4         //设置文件的写入路径
 5         TotalOrderPartition.setPartitionFile(job.getConfiguration(),new Path("E:/par.dat"));
 6 
 7         /**
 8          * 初始化采样器
 9          * RandomSampler    采用随机采样的方式
10          * freq             每个Key被选中的概率     freq x key > 分区数
11          * numSamples       需要的样本数           numSamples  > 分区数
12          * maxSplitsSampled 文件最大切片数         maxSplitsSampled > 当前切片数
13          */
14         InputSampler.RandomSampler = new InputSampler.RandomSampler(freq, numsamples,maxsplitsSampled );
15 
16         //写入采样数据
17         InputSampler.writePartitionFile(job,sampler);

　　　　Over　　　　

上一篇：推荐阅读Google算法更新大全

下一篇： sqlmap的使用方法

hadoop排序 -- 全排序

一、关于Reducer全排序

1.1、什么叫全排序？

1.2、数据分区的标准是什么？

二、全排序的三种方式

2.1、一个Reduce

2.2、自定义分区函数

2.3、采样：TotalOrderPartition

JS深入学习之数组对象排序操作示例

MySQL单表查询操作实例详解【语法、约束、分组、聚合、过滤、排序等】

vue element table 表格请求后台排序的方法

将Excel表格转换成TXT文本以制表符或逗号分隔的方式排序

插入排序

C++分治策略实现快速排序

在Word2010中按替换名称排序样式列表

在Word2010表格中按英文字母大小写排序

在Word2010表格中对数据进行排序

[ExtNet] GridPanel怎么实现服务器端分页、排序、查询?--Oracel存储过程分页