欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

加载distribute cache过大 博客分类: 数据挖掘&机器学习

程序员文章站 2024-02-18 20:05:22
...

为了节省一步join的MR,使用distribute cache把小文件加载到内存,分析的数据实在过大,导致特征词统计的小文件也可能要达到600M左右,解决办法两种:1.调整数据结构,减少内存中的数据条数;2.改用join的方式加载入数据