加载distribute cache过大 博客分类: 数据挖掘&机器学习
程序员文章站
2024-02-18 20:05:22
...
为了节省一步join的MR,使用distribute cache把小文件加载到内存,分析的数据实在过大,导致特征词统计的小文件也可能要达到600M左右,解决办法两种:1.调整数据结构,减少内存中的数据条数;2.改用join的方式加载入数据
下一篇: 矩阵等价-相似-合同