hadoop3自学入门笔记(2)—— HDFS分布式搭建
一些介绍
hadoop 2和hadoop 3的端口区别
hadoop 3 hdfs集群架构
我的集群规划
name | ip | role |
---|---|---|
61 | 192.168.3.61 | namenode, datanode |
62 | 192.168.3.62 | datanode |
63 | 192.168.3.63 | secondnamenode |
64 | 192.168.3.64 | datanode |
1.安装jdk
利用filezilla sftp功能进行上传到指定文件夹下/root/software,下图是配置sftp.
解压使用命令tar -xvzf jdk-8u241-linux-x64.tar.gz
解压到当前文件夹下。
配置环境变量,输入命令vim /etc/profile
,添加
java_home=/root/software/jdk1.8.0_241 path=$java_home/bin:$path
最后退出vi,输入source /etc/profile
测试输入命令java -version
,如果展示
root@localhost ~]# java -version java version "1.8.0_241" java(tm) se runtime environment (build 1.8.0_241-b07) java hotspot(tm) 64-bit server vm (build 25.241-b07, mixed mode) [root@localhost ~]#
2.配置hadoop
sftp://root@192.168.3.62/root/software/hadoop-3.2.1.tar.gz
解压。
2.1部署及配置
hadoop的配置涉及以下几个文件,分别是:hadoop-env.sh、core-site.xml、hdfs-site.xml和workers。其中,hadoop-env.sh是hadoop运行环境变量配置;core-site.xml是hadoop公共属性的配置;hdfs-site.xml是关于hdfs的属性配置;workers是datanode分布配置。下面我们分别配置这几个文件。
以61为中心配置,最后复制到其他服务器
- hadoop-env.sh文件
在/etc/hadoop/hadoop-env.sh中配置运行环境变量,在默认情况下,这个文件是没有任何配置的。我们需要配置java_home、hdfs_namenode_user和hdfs_datanode_user等,hdfs_secondarynamenode_user配置代码如下:
在尾部加入
export java_home=/root/software/jdk1.8.0_241 export hdfs_namenode_user=root export hdfs_datanode_user=root export hdfs_secondarynamenode_user=root
其中,java_home=/root/software/jdk1.8.0_241是指定jdk的位置,hdfs_namenode_user=root是指定操作namenode进程的用户是root。同理,hdfs_datanode_user和hdfs_secondarynamenode_user分别指定了操作datanode和secondary namenode的用户,在这里我们设置为root用户,具体应用时,读者根据情况进行设置即可。在这里需要注意的是,hdfs_namenode_user、hdfs_datanode_user和hdfs_secondarynamenode_user是hadoop 3.x为了提升安全性而引入的。
- core-site.xml文件
core-site.xml中主要配置hadoop的公共属性,配置代码如下:
<configuration> <property> <name>fs.defaultfs</name> <value>hdfs://192.168.3.61:9820</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoopdata</value> </property> </configuration>
其中,fs.defaultfs是指定namenode所在的节点,在这里配置为node1;9820是默认端口;hdfs:是协议;hadoop.tmp.dir是配置元数据所存放的配置,这里配置为/opt/hadoopdata,后续如果需要查看fsiamge和edits文件,可以到这个目录下查找。
- hdfs-site.xml文件
hdfs-site.xml文件中主要是hdfs属性配置,配置代码如下:
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.3.63:9868</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.datanode.registration.ip-hostname-check</name> <value>false</value> </property>
其中,dfs.namenode.secondary.http-address属性是配置secondary namenode的节点,在这里配置为node2。端口为9868。
关于这些配置,读者可以从官网上查找,网址为,其中的左下角有个configuration项,其中包括core-default.xml等配置文件。
- workers文件
在workers中配datanode节点,在其中写入:
192.168.3.61 192.168.3.62 192.168.3.64
2.2 将配置复制到其他服务器
进入 /root/software/hadoop-3.2.1/etc 目录
输入命令
scp -r ./hadoop 192.168.3.62:/root/software/hadoop-3.2.1/etc/ scp -r ./hadoop 192.168.3.63:/root/software/hadoop-3.2.1/etc/ scp -r ./hadoop 192.168.3.64:/root/software/hadoop-3.2.1/etc/
2.3配置下hadoop的环境变量,方便输入命令
export java_home=/root/software/jdk1.8.0_241 export hadoop_home=/root/software/hadoop-3.2.1 export path=$path:$java_home/bin:$hadoop_home/bin:$hadoop_home/sbin
2.4格式化
第一次安装hadoop需要进行格式化,以后就不需要了。格式化命令在hadoop/bin下面,执行如下命令:
hdfs namenode -formate
格式化后会创建一个空白的fsimage文件,可以在opt/hadoopdata/dfs/name/current中找到fsimage文件,注意此时没有edits文件。
3.启动
进入hadoop/sbin下面运行start-dfs.sh,启动hdfs集群,启动命令如下:
./start-dfs.sh
这时,可以在不同节点中通过jps命令查看不同的进程。
61
62
63
4.打开浏览器查看hdfs监听页面
在浏览器中输入http://ip:9870,比如这里输入http://192.168.30.61:9870/,出现以下界面则表示hadoop完全分布式搭建成功
选择datanodes选项,可以看到datanode的利用率和datanode的节点状态
这里只显示了一个比较奇怪,以后再研究。
公众号【lovepythoncn】
上一篇: hadoop
下一篇: VBS日期(时间)格式化函数代码