欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

MapReduce数据倾斜的解决经验 博客分类: hadoopjava

程序员文章站 2024-03-15 10:27:05
...

        数据倾斜的意思就是某些key对应的信息条数过多,导致对应reducer的内存溢出。

 

        解决这个问题,要区分一下问题引起的原因。无非是:

  1. 由于对数据构成认识不足,导致启动配置资源的不合理
  2. 刷量数据的不合理涌入

        对于第一种情况,我们可以通过调整reduce的个数,以及reducer的jvm大小来解决。

 

       对于第二种情况,我建议应该先分析数据的倾斜原因,考虑这部分数据生成的原因,是程序错误还是恶意的刷量数据。当然这个工作并不在解决数据倾斜的内容中。

        解决的方案比较简单,以时间换空间。通过修改patition的方式更改key的分配方式,让所有的key即能分散,又能达到一定程度的合并,达到数据规模下降的目的。key的生成方式可以采用“加延”的方法,比如,让每个key后面都带上patition的序号,或者带上时间段的某个位。然后通过计算这部分中间结果的方式来获取最后的结果。

        简单来说,处理方法的考虑顺序可以这样:

        1. 增加reducer个数,以及提高reduce的内存分配

        2. 使用combiner

        3. 使用自定义的partitioner