MapReduce数据倾斜的解决经验 博客分类: hadoopjava
程序员文章站
2024-03-15 10:27:05
...
数据倾斜的意思就是某些key对应的信息条数过多,导致对应reducer的内存溢出。
解决这个问题,要区分一下问题引起的原因。无非是:
- 由于对数据构成认识不足,导致启动配置资源的不合理
- 刷量数据的不合理涌入
对于第一种情况,我们可以通过调整reduce的个数,以及reducer的jvm大小来解决。
对于第二种情况,我建议应该先分析数据的倾斜原因,考虑这部分数据生成的原因,是程序错误还是恶意的刷量数据。当然这个工作并不在解决数据倾斜的内容中。
解决的方案比较简单,以时间换空间。通过修改patition的方式更改key的分配方式,让所有的key即能分散,又能达到一定程度的合并,达到数据规模下降的目的。key的生成方式可以采用“加延”的方法,比如,让每个key后面都带上patition的序号,或者带上时间段的某个位。然后通过计算这部分中间结果的方式来获取最后的结果。
简单来说,处理方法的考虑顺序可以这样:
1. 增加reducer个数,以及提高reduce的内存分配
2. 使用combiner
3. 使用自定义的partitioner
推荐阅读
-
MapReduce数据倾斜的解决经验 博客分类: hadoopjava
-
面向算法效果的数据统计案例 博客分类: 工作经验
-
面向算法效果的数据统计案例 博客分类: 工作经验
-
清空具有外键约束的表时报ERROR 1701(42000)的解决 博客分类: 数据库
-
清空具有外键约束的表时报ERROR 1701(42000)的解决 博客分类: 数据库
-
【实例解析】大型服装集团BI决策系统的分析主题模块 博客分类: 解决方案综合数据分析系统 商业智能服装企业信息化BI决策系统大型服装集团BI系统
-
[案例]某体育用品公司在零售领域BI的产品应用解决方案 博客分类: 解决方案 数据信息化bi商业智能数据分析应用
-
ORA-01653 无法在表空间扩展的解决办法 -- 增加表空间大小或给表空间增加数据文件 博客分类: Oracle 表空间Oracle
-
大型互联网站解决海量数据的常见策略 博客分类: web web
-
大型互联网站解决海量数据的常见策略 博客分类: web web