欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

从Hadoop URL 中读取数据 博客分类: hadoop  

程序员文章站 2024-02-07 10:26:54
...

要从Hadoop文件系统中读取文件,最简单的方法就是使用java.net.URL 对象打开数据流,进而从中读取数据。

 

例如:

 

		InputStream in = null;
		try{
			in = new URL("hdfs://host/path").openStream();
		}finally{
			IOUtils.closeStream(in);
		}

 

但是要让java能够识别hadoop的hdfs 的url 方案还需要一些额外的工作,可以采用通过FsUrlStreamHandlerFactory 的实例调用URL中的setURLStreamHandlerFactory方法。

 

URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

 但是这样操作,也会存在一定的问题。java虚拟机只能调用一次上述方法,因此通常在静态方法中去调用,这就意味着,如果其他程序已经调用过这个方法,那么你的程序将不再能调用这个方案。

 

      完整实例

 

package gucas.xiaoxia;

import java.io.InputStream;
import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;

public class CatURL {

	static {
		URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
	}

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		InputStream input = null;
		try {
			input = new URL("hdfs://localhost/user/hadoop/map.txt")
					.openStream();

			IOUtils.copyBytes(input, System.out, 4096, false);

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			IOUtils.closeStream(input);
		}
	}

}

 

输出:

hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10