欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Mapreduce提交任务

程序员文章站 2022-03-24 13:46:29
...

一、提交任务

public class Driver {
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		
		conf.set("fs.defaultFS", "hdfs://bigdata01:9000");
		Job job = Job.getInstance(conf);
		
		//设置任务的使用类
		job.setMapperClass(MapTask.class);
		job.setReducerClass(ReduceTask.class);
		job.setJarByClass(Driver.class);
		
		//设置输出类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		//设置reduceTask数量,不是必要选项
		job.setNumReduceTasks(2);
		
		//设置输入和输出目录
		FileInputFormat.addInputPath(job, new Path("/test/qingshu.txt"));
		FileOutputFormat.setOutputPath(job, new Path("/test/qingshuOut2"));
		
		//获得反馈信息
		boolean completion = job.waitForCompletion(true);
		System.out.println(completion?"程序执行完毕,没毛病":"程序出bug了,赶紧修改再来运行");
		
	}
}

二、Mapreduce提交任务的四种方法

注意:一下四种方法都需要配置job

1、打包成jar包,在集群上运行,eg:hadoop jar xxx.jar 类全路径名(包名+类名)

[[email protected] ~]# hadoop jar mr.jar cn.aliyun.mr.Driver

需声明在哪个集群上运行,eg:

conf.set("fs.defaultFS", "hdfs://bigdata01:9000");

2、本地运行。文件系统是本地的,运行也是在本地。
1)conf无需配置
2)设置输入和输出目录时需配置本地路径名,eg:

//设置输入和输出目录
FileInputFormat.addInputPath(job, new Path("E:\\小牛学堂\\杂项\\line.txt"));
FileOutputFormat.setOutputPath(job, new Path("E:\\小牛学堂\\杂项\\lineOut"));

3、半本地运行,文件系统时hadoop集群的,运行是在本地的
1)需声明在哪个集群上运行的
2)权限问题,需声明使用用户进行提交

  System.setProperty("HADOOP_USER_NAME", "root");

4、代码直接提交到集群(eclispe提交到集群)
1)权限问题,需声明使用用户进行提交
2)向yarn集群提交任务,需声明在哪个集群上运行的
3)提交至yarn上

  conf.set(“mapreduce.framework.name","yarn")

4)yarn的的rsoursemanager

  conf.set("yarn.resourcemanager.hostname", "bigdata01");

5)平台转换,从window向linux提交任务

  conf.set("mapreduce.app-submission.cross-platform", "true");

6)通过代码直接往集群上提交时,需设置为jar的位置

  job.setJar("C:\\Users\\root\\Desktop\\wc.jar");
相关标签: Mapreduce学习