MapReduce数据倾斜的解决经验博客分类： hadoopjava

程序员文章站 2024-03-15 10:27:05

...

数据倾斜的意思就是某些key对应的信息条数过多，导致对应reducer的内存溢出。

解决这个问题，要区分一下问题引起的原因。无非是：

由于对数据构成认识不足，导致启动配置资源的不合理
刷量数据的不合理涌入

对于第一种情况，我们可以通过调整reduce的个数，以及reducer的jvm大小来解决。

对于第二种情况，我建议应该先分析数据的倾斜原因，考虑这部分数据生成的原因，是程序错误还是恶意的刷量数据。当然这个工作并不在解决数据倾斜的内容中。

解决的方案比较简单，以时间换空间。通过修改patition的方式更改key的分配方式，让所有的key即能分散，又能达到一定程度的合并，达到数据规模下降的目的。key的生成方式可以采用“加延”的方法，比如，让每个key后面都带上patition的序号，或者带上时间段的某个位。然后通过计算这部分中间结果的方式来获取最后的结果。

简单来说，处理方法的考虑顺序可以这样：

1. 增加reducer个数，以及提高reduce的内存分配

2. 使用combiner

3. 使用自定义的partitioner

上一篇： row_number(),rank(),dese_rank()区别博客分类： hadoophive

下一篇： commons-pool对象池实例（二）博客分类： java

MapReduce数据倾斜的解决经验博客分类： hadoopjava

MapReduce数据倾斜的解决经验博客分类： hadoopjava

面向算法效果的数据统计案例博客分类：工作经验

面向算法效果的数据统计案例博客分类：工作经验

清空具有外键约束的表时报ERROR 1701(42000)的解决博客分类：数据库

清空具有外键约束的表时报ERROR 1701(42000)的解决博客分类：数据库

【实例解析】大型服装集团BI决策系统的分析主题模块博客分类：解决方案综合数据分析系统商业智能服装企业信息化BI决策系统大型服装集团BI系统

［案例］某体育用品公司在零售领域BI的产品应用解决方案博客分类：解决方案数据信息化bi商业智能数据分析应用

ORA-01653 无法在表空间扩展的解决办法 -- 增加表空间大小或给表空间增加数据文件博客分类： Oracle 表空间Oracle

大型互联网站解决海量数据的常见策略博客分类： web web

大型互联网站解决海量数据的常见策略博客分类： web web

MapReduce数据倾斜的解决经验 博客分类： hadoopjava

MapReduce数据倾斜的解决经验 博客分类： hadoopjava

面向算法效果的数据统计案例 博客分类： 工作经验

面向算法效果的数据统计案例 博客分类： 工作经验

清空具有外键约束的表时报ERROR 1701(42000)的解决 博客分类： 数据库

清空具有外键约束的表时报ERROR 1701(42000)的解决 博客分类： 数据库

【实例解析】大型服装集团BI决策系统的分析主题模块 博客分类： 解决方案综合数据分析系统 商业智能服装企业信息化BI决策系统大型服装集团BI系统

［案例］某体育用品公司在零售领域BI的产品应用解决方案 博客分类： 解决方案 数据信息化bi商业智能数据分析应用

ORA-01653 无法在表空间扩展的解决办法 -- 增加表空间大小或给表空间增加数据文件 博客分类： Oracle 表空间Oracle

大型互联网站解决海量数据的常见策略 博客分类： web web

大型互联网站解决海量数据的常见策略 博客分类： web web

MapReduce数据倾斜的解决经验博客分类： hadoopjava

MapReduce数据倾斜的解决经验博客分类： hadoopjava

面向算法效果的数据统计案例博客分类：工作经验

面向算法效果的数据统计案例博客分类：工作经验

清空具有外键约束的表时报ERROR 1701(42000)的解决博客分类：数据库

清空具有外键约束的表时报ERROR 1701(42000)的解决博客分类：数据库

【实例解析】大型服装集团BI决策系统的分析主题模块博客分类：解决方案综合数据分析系统商业智能服装企业信息化BI决策系统大型服装集团BI系统

［案例］某体育用品公司在零售领域BI的产品应用解决方案博客分类：解决方案数据信息化bi商业智能数据分析应用

ORA-01653 无法在表空间扩展的解决办法 -- 增加表空间大小或给表空间增加数据文件博客分类： Oracle 表空间Oracle

大型互联网站解决海量数据的常见策略博客分类： web web

大型互联网站解决海量数据的常见策略博客分类： web web