欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Spark性能调优系列:(五)数据倾斜(两阶段聚合(局部聚合+全局聚合))

程序员文章站 2022-04-16 10:01:30
...

两阶段聚合(局部聚合+全局聚合)

适用场景

对RDD执行reduceByKey等聚合类shuffle算子或者在SparkSQL中使用Groupby语句进行分组聚合时,比较适用这种方案。

实现思路

核心实现思路就是进行两阶段聚合。第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,
比如:(hello,1)(hello,1)(hello,1)(hello,1)(hello,1)会变成(1_hello,1)(1_hello,1)(1_hello,1)(2_hello,1)(2_hello,1)。接着对打上随机数之后的数据,执行reduceByKey等聚合操作,进行局部聚合,
那么局部聚合结果,就会变成(1_hello,3)(1_hello,2),然后将各个key的前缀给去掉,就变成(hello,3)(hello,2),再次进行全局聚合操作,就可以得到最终结果,比如(hello,5)

实现原理

将原本相同的key通过附加随机前缀的方式,变成多个不同的key,就可以原本被一个Tsak处理的数据分散到多个Task上去做局部聚合,进而解决单个Task 处理数据量过多的问题,接着去除掉随机前缀,再次进行全局聚合,便可得到最终结果。

优点

对于聚合类的shuffle操作导致的数据倾斜,效果是非常不错的。通常都可以解决掉数据倾斜,或者至少是大幅度缓解数据倾斜,将Spark作业的性能提升数倍以上。

缺点

仅仅适用于聚合类的shuffle操作,适用范围相对较窄。如果是join类的shuffle操作,还得用其他的解决方案。

原理图

Spark性能调优系列:(五)数据倾斜(两阶段聚合(局部聚合+全局聚合))

相关标签: Spark性能调优