从Hadoop URL 中读取数据博客分类： hadoop

程序员文章站 2024-02-07 10:04:46

...

要从Hadoop文件系统中读取文件，最简单的方法就是使用java.net.URL 对象打开数据流，进而从中读取数据。

例如：

		InputStream in = null;
		try{
			in = new URL("hdfs://host/path").openStream();
		}finally{
			IOUtils.closeStream(in);
		}

但是要让java能够识别hadoop的hdfs 的url 方案还需要一些额外的工作，可以采用通过FsUrlStreamHandlerFactory 的实例调用URL中的setURLStreamHandlerFactory方法。

URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

但是这样操作，也会存在一定的问题。java虚拟机只能调用一次上述方法，因此通常在静态方法中去调用，这就意味着，如果其他程序已经调用过这个方法，那么你的程序将不再能调用这个方案。

完整实例

package gucas.xiaoxia;

import java.io.InputStream;
import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;

public class CatURL {

	static {
		URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
	}

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		InputStream input = null;
		try {
			input = new URL("hdfs://localhost/user/hadoop/map.txt")
					.openStream();

			IOUtils.copyBytes(input, System.out, 4096, false);

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			IOUtils.closeStream(input);
		}
	}

}

输出：

hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10

上一篇： SkipList 跳表博客分类： redis

下一篇：数据挖掘概述博客分类：搜索引擎数据挖掘算法

从Hadoop URL 中读取数据博客分类： hadoop

从Hadoop URL 中读取数据博客分类： hadoop

Hadoop配置文档博客分类：大数据 hadoopsshlinux虚拟机mapreduce

海量日志数据，提取出某日访问百度次数最多的那个IP 博客分类：面试总结 hadoop

海量日志数据，提取出某日访问百度次数最多的那个IP 博客分类：面试总结 hadoop

从Hadoop URL 中读取数据 博客分类： hadoop

从Hadoop URL 中读取数据 博客分类： hadoop

Hadoop配置文档 博客分类： 大数据 hadoopsshlinux虚拟机mapreduce

海量日志数据，提取出某日访问百度次数最多的那个IP 博客分类： 面试总结 hadoop

海量日志数据，提取出某日访问百度次数最多的那个IP 博客分类： 面试总结 hadoop

从Hadoop URL 中读取数据博客分类： hadoop

从Hadoop URL 中读取数据博客分类： hadoop

Hadoop配置文档博客分类：大数据 hadoopsshlinux虚拟机mapreduce

海量日志数据，提取出某日访问百度次数最多的那个IP 博客分类：面试总结 hadoop

海量日志数据，提取出某日访问百度次数最多的那个IP 博客分类：面试总结 hadoop