从Hadoop URL 中读取数据 博客分类: hadoop
程序员文章站
2024-02-07 10:26:54
...
要从Hadoop文件系统中读取文件,最简单的方法就是使用java.net.URL 对象打开数据流,进而从中读取数据。
例如:
InputStream in = null; try{ in = new URL("hdfs://host/path").openStream(); }finally{ IOUtils.closeStream(in); }
但是要让java能够识别hadoop的hdfs 的url 方案还需要一些额外的工作,可以采用通过FsUrlStreamHandlerFactory 的实例调用URL中的setURLStreamHandlerFactory方法。
URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
但是这样操作,也会存在一定的问题。java虚拟机只能调用一次上述方法,因此通常在静态方法中去调用,这就意味着,如果其他程序已经调用过这个方法,那么你的程序将不再能调用这个方案。
完整实例
package gucas.xiaoxia; import java.io.InputStream; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class CatURL { static { URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub InputStream input = null; try { input = new URL("hdfs://localhost/user/hadoop/map.txt") .openStream(); IOUtils.copyBytes(input, System.out, 4096, false); } catch (Exception e) { e.printStackTrace(); } finally { IOUtils.closeStream(input); } } }
输出:
hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10 hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10 hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10 hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10hello world:10