欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Java访问kerberos认证的HDFS文件

程序员文章站 2022-03-02 08:11:41
...

Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。

具体HADOOP的访问HDFS使用Kerberos的作用和原理请自己查阅相关文档。

之前做项目时第一次使用Kbs访问HDFS,当时不了解,翻阅资料搞了好久,也入了不少坑,现分享出来,方便大家。


下面代码在项目亲测过,可用


代码如下:

package zqmKerberos;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.security.UserGroupInformation;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.UUID;
import org.apache.hadoop.fs.Path;

public class BjKerberos {
    public final String USER_KEY = "[email protected]"; //用户key
    public final String KEY_TAB_PATH = "/home/usergrp.user-app_yxkj.keytab"; //keytab文件
    public final String HDFS_PATH = "/user/finalRes"; //要访问的HDFS路径
    public HashMap<String,String> map = new HashMap<String,String>();

    public HashMap<String,String> Kerberos() throws IOException {
        SimpleDateFormat df = new SimpleDateFormat("yyyyMMdd");
        String currentDay = df.format(new Date());
//        HDFS的Kerberos认证
        System.setProperty("java.security.krb5.conf", "/home/krb5.conf");
        Configuration conf = new Configuration();
//        必须加,不然会报找不到文件系统
        conf.addResource(new Path("/home/hdfs-site.xml"));
        conf.addResource(new Path("/home/core-site.xml"));
//	    设置conf信息
        conf.setBoolean("hadoop.security.authorization", true);
        conf.set("hadoop.security.authentication", "kerberos");

        try {
            UserGroupInformation.setConfiguration(conf);
            UserGroupInformation.loginUserFromKeytab(USER_KEY, KEY_TAB_PATH);
        } catch (IOException e) {
            e.printStackTrace();
        }
        System.out.println("Kerberos Checked Finsh!  Get HDFS Data ! \n");


//      下面是自己的业务逻辑,不用看
        FileSystem fs = FileSystem.get(conf);
        FileStatus dir[] = fs.listStatus(new Path(HDFS_PATH));
        for (int i = 0; i < dir.length; i++) {
            FileStatus dir_two[] = fs.listStatus(dir[i].getPath());
            for (int j = 0; j < dir_two.length; j++) {
                if(dir_two[j].getPath().toString().contains(currentDay)){
                    FileStatus files[] = fs.listStatus(dir_two[j].getPath());
                    for(int n = 0; n < files.length; n++){
//                      结果数据文件
                        System.out.println(files[n].getPath());
                        InputStream in = fs.open(files[n].getPath());
                        BufferedReader br = new BufferedReader(new InputStreamReader(in, "utf-8"));
                        String line = null;
                        while ((line = br.readLine()) != null) {
                            String str[] = line.split("\t");
//                          因为一个标识会被多人呼,所以加UUID使其唯一
                            map.put(str[0].trim() + "_" + UUID.randomUUID(), str[1].trim()); 
                        }
                    }
                }
            }
        }
        System.out.printf("HDFS Data Total number:%d (tiao)\n", map.size());
        for (String key : map.keySet()) {
            System.out.printf("Show first sample data: " + key + "\t" + map.get(key) + "\n");
            break;
        }
        return map;
    }
}

hdfs-site.xml,core-site.xml:这两个文件是集群配置文件,具体再哪里?自己咨询集群维护人员,切记必须要有。