MapReduce输入输出格式博客分类： hadoop HadoopMapReduce大数据

程序员文章站 2024-03-15 10:27:05

...

常用输入格式

输入格式	特点	使用的RecordReader	是否使用FileInputFormat的getSplits
TextInputFormat	以行偏移量为key，以换行符前的字符为Value	LineRecordReader	是
KeyValueTextInputFormat	默认分割符为”\t”，根据分割符来切分行，前为key，后为value	KeyValueLineRecordReader，内部使用LineRecordReader	是
NLineInputFormat	根据属性mapreduce.input.lineinputformat.linespermap所设置的行数为每片split的行数	LineRecordReader	覆盖FileInputFormat的getSplits
SequenceFileInputFormat	使用Hadoop特有文件格式SequenceFile.Reader进行读写，读取二进制文件	SequenceFileRecordReader	是
DBInputFormat	通过与数据建立连接，将读取的数据根据map数进行分片	DBRecordReader	继承InputFormat，实现分片和RecordReader

MapReduce输入输出格式

博客分类： hadoop HadoopMapReduce大数据

常用输出格式

1. OutputFormat接口

　　OutputFormat为输出格式接口，主要用于描述输出数据的格式，它能将输出的键值对写入特定格式的文件中。输出格式的层次结构如下

MapReduce输入输出格式

博客分类： hadoop HadoopMapReduce大数据

2. 文本输出

　　Hadoop默认的输出格式为文本输出格式TextOutputFormat，其键和值可以使任意类型的，因为该输出方式会调用toString()方法将它们转化为字符串。每个键/值对由制表符进行分割，当然也可以设定 mapreduce.output.textoutputformat.separator 属性（旧版本 API 中为 mapred.textoutputformat.separator）改变默认的分隔符。

3. 二进制输出

　　二进制输出有三种方式：SequenceFileOutputFormat，SequenceFileAsBinaryOutputFormat和MapFileOutputFormat。重点掌握第一种。

　　对于SequenceFileOutputFormat，顾名思义，SequenceFileOutputFormat 将它的输出写为一个顺序文件。如果输出需要作为后续 MapReduce 任务的输入，这便是一种好的输出格式，因为它的格式紧凑，并且很容易被压缩。而对于SequenceFileAsBinaryOutputFormat，它将键/值对作为二进制格式写到一个 SequenceFile 容器中。不同的是，MapFileOutputFormat 把 MapFile 作为输出。MapFile 中的键必须顺序添加，所以必须确保 reducer 输出的键已经排好序。

4. 多个输出

　　由于默认情况下只有一个 Reducer，输出只有一个文件。有时可能需要对输出的文件名进行控制或让每个 reducer 输出多个文件。

　　当只有一个reduce时，输出文件命名格式为：part-r-00000。当有两个reduce时，输出文件命名格式为：part-r-00000，part-r-00001。当有多个时以此类推。实现Reducer输出多个文件主要有以下两种方式：Partitioner和MultipleOutputs。

　4.1 Partitioner

　　我们考虑这样一个需求：按学生的年龄段，将数据输出到不同的文件路径下。这里我们分为三个年龄段：小于等于20岁、大于20岁小于等于50岁和大于50岁。

我们采用的方法是每个年龄段对应一个 reducer。为此，我们需要通过以下两步实现。

第一步：把作业的 reducer 数设为年龄段数即为3。

　　job.setPartitionerClass(PCPartitioner.class);//设置Partitioner类　　job.setNumReduceTasks(3);// reduce个数设置为3

　　第二步：写一个 Partitioner，把同一个年龄段的数据放到同一个分区。

public static class PCPartitioner extends Partitioner< Text, Text>
{
	@Override
	public int getPartition(Text key, Text value, int numReduceTasks) {
		  // TODO Auto-generated method stub
		  String[] nameAgeScore = value.toString().split("\t");
		  String age = nameAgeScore[1];//学生年龄
		  int ageInt = Integer.parseInt(age);//按年龄段分区
		  // 默认指定分区 0
		  if (numReduceTasks == 0)
			   return 0;
		  //年龄小于等于20，指定分区0
		  if (ageInt <= 20) {
			   return 0;
		  }
		  // 年龄大于20，小于等于50，指定分区1
		  if (ageInt > 20 && ageInt <= 50) {
			   return 1 % numReduceTasks;
		  }
		  // 剩余年龄，指定分区2
		  else
			   return 2 % numReduceTasks;
	}
}

　　这种方法即实现了多文件输出，但也只能满足此种需求。很多情况下是无法实现的，因为这样做存在两个缺点：

　　1）需要在作业运行之前需要知道分区数和年龄段的个数，如果分区数很大或者未知，就无法操作。

2）一般来说，让应用程序来严格限定分区数并不好，因为这样可能导致分区数少或分区不均。

　4.2 MultipleOutputs

　　MultipleOutputs 类可以将数据写到多个文件，这些文件的名称源于输出的键和值或者任意字符串。这允许每个 reducer（或者只有 map 作业的 mapper）创建多个文件。采用name-m-nnnnn 形式的文件名用于 map 输出，name-r-nnnnn 形式的文件名用于 reduce 输出，其中 name 是由程序设定的任意名字， nnnnn 是一个指明块号的整数（从 00000 开始）。块号保证从不同块（mapper 或 reducer）写的输出在相同名字情况下不会冲突。

　　实例将在下一篇博文（MapReduce实战：邮箱统计及多输出格式实现）给出！

5. 数据库输出　

　　DBOutputFormat 适用于将作业输出数据（中等规模的数据）转存到Mysql、Oracle等数据库。如果数据量较大请考虑其他方法将输出数据导入或转存到数据库中。

上一篇： CDH之安装部署的坑博客分类：大数据技术 CDH部署CDH异常

下一篇：全志编译环境安装博客分类：全志编译环境安装全志编译环境安装

MapReduce输入输出格式博客分类： hadoop HadoopMapReduce大数据

常用输入格式

常用输出格式

学习Hadoop权威指南之Hadoop运行MapReduce日志查看博客分类： hadoop hadoop大数据