欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

设定InputSplitSize确定Map Task数

程序员文章站 2022-06-14 17:27:18
...

都知道运行job时可以通过Job.setNumReduceTasks(int tasks)来设定Reduce任务数,那么Map任务数如何设定呢,API中并没有提供像直接指定Reduce任务数那样来直接指定Map任务数的方法,先来理下逻辑:

首先,文件在上传到Hdfs文件系统的时候,被切分成不同的Block块(默认大小为128MB,这里是hadoop2,hadoop1是64M)。但是每个Map处理的分块有时候并不是系统的物理Block块大小。实际处理的输入分块的大小是根据InputSplit来设定的,那么InputSplit是怎么得到的呢?

看源码可知计算splitSize过程以下是部分代码,可从org.apache.hadoop.mapreduce.lib.input.FileInputFormat查看,该版本为2.6:

public static final String SPLIT_MAXSIZE = "mapreduce.input.fileinputformat.split.maxsize";

public static final String SPLIT_MINSIZE =  "mapreduce.input.fileinputformat.split.minsize";

//...

long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

long maxSize = getMaxSplitSize(job);

long splitSize = computeSplitSize(blockSize, minSize, maxSize);

protected long getFormatMinSplitSize() {

    return 1;

  }

public static long getMinSplitSize(JobContext job) {

    return job.getConfiguration().getLong(SPLIT_MINSIZE, 1L);

  }

public static long getMaxSplitSize(JobContext context) {

    return context.getConfiguration().getLong(SPLIT_MAXSIZE,Long.MAX_VALUE);

  }

protected long computeSplitSize(long blockSize, long minSize,long maxSize) {

    return Math.max(minSize, Math.min(maxSize, blockSize));

  }

因此可以通过如下设定来确定map task数:

FileInputFormat.setMaxInputSplitSize(Job, 1024*1024*size);

FileInputFormat.setMinInputSplitSize(Job, 1l);

 

相关标签: hadoop job map