【大数据面试常问问题】----MapReduce优化

程序员文章站 2022-06-02 13:05:30

...

MapReduce优化

MR优化从5个角度优化:
输入端->MapShuffle->ReduceShuffle    网络IO  整体

1）数据输入小文件处理：
（1）合并小文件：对小文件进行归档（Har）、自定义Inputformat将小文件存储成SequenceFile文件。
（2）采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景。
（3）对于大量小文件Job，可以开启JVM重用。
2）Map阶段
（1）增大环形缓冲区大小。由100m扩大到200m
（2）增大环形缓冲区溢写的比例。由80%扩大到90%
（3）减少对溢写文件的merge次数。
（4）不影响实际业务的前提下，采用Combiner提前合并，减少 I/O。
3）Reduce阶段
（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多，会导致 Map、Reduce任务间竞争资源，造成处理超时等错误。
（2）设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行到一定程度后，Reduce也开始运行，减少Reduce的等待时间。
（3）规避使用Reduce，因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。
（4）增加每个Reduce去Map中拿数A据的并行数
（5）集群性能可以的前提下，增大Reduce端存储数据内存的大小。
4）IO传输
（1）采用数据压缩的方式，减少网络IO的的时间。安装Snappy和LZOP压缩编码器。
（2）使用SequenceFile二进制文件
5）整体
（1）MapTask默认内存大小为1G，可以增加内存大小为4-5g
（2）ReduceTask默认内存大小为1G，可以增加ReduceTask内存大小为4-5g
（3）可以增加MapTask的cpu核数，增加ReduceTask的CPU核数
（4）增加每个Container的CPU核数和内存大小
（5）调整每个Map Task和Reduce Task最大重试次数

每篇一言: 君子不器

【大数据面试常问问题】----MapReduce优化

MapReduce优化

【大数据面试常问问题】----NameNode以及SecondryNamenode

【大数据面试常问问题】----MapReduce优化

【大数据面试常问问题】----HDFS读写流程

java面试常问问题总结---数据库篇

【大数据面试常问问题】----HANameNode

【大数据面试常问问题】----Hadoop缓存机制