hadoop学习笔记之hadoop伪分布集群搭建(三)
默认以上环境已经配置好,下面开始进行hadoop伪分布集群安装......
============================================================
内容如下:
一、给主机服务器(Centos 6.4)配置IP地址
二、安装jdk,并配置环境变量
三、安装hadoop
四、ssh免密登录
五、HDFS & MapReduce 运行测试
============================================================
一、安装hadoop
首先去hadoop官网下载相应的hadoop安装包,这里我们使用的是版本是hadoop-2.4.1
下载好以后,将安装包上传到服务器
然后解压安装到之前建的app文件夹中 tar -zxvf hadoop-2.4.1.tar.gz -C app/
解压完成可以查看相应的文件夹内容如下:
bin:包含一些可执行的脚本文件etc:包含一些配置文件
include和lib:包含一些本地库文件
sbin:系统相关的脚本文件,包括启动和停止等
share:jar包相关的文件
可以打开share文件夹查看一下
common:包含一些公共组件和模块hdfs:包含hdfs相关的组件
httpfs:包含一些通过http协议上传文件的相关组件
sbin:系统相关的脚本文件,包括启动和停止等
mapreduce:包含mapreduce相关的组件
tools:工具包
yarn:包含yarn框架相关的组件
此时想要运行hadoop,还需要进行一些配置
在etc/hadoop/下包含了一些配置文件
(1)环境变量配置
如果不记得JAVA_HOME的路径,可以使用命令 echo $JAVA_HOME获得,该命令是获得系统中变量名为JAVA_HOME的值(JAVA_HOME在安装jdk的时候配置过)
(2)配置core-site.xml文件
<configuration>
<property>
<name>fs.defaultFS</name> #配置默认文件系统
<value>hdfs://work01:9000/</value> #提供主节点机器名字,默认端口号为9000
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/hadoop-2.4.1/data/</value> #配置数据存放目录
</property>
</configuration>
(3)配置hdfs-site.xml文件
vi hdfs-site.xml 添加一个变量,如下
<configuration>
<property>
<name>dfs.replication</name> #设置数据副本数,一般为3最合适
<value>1</value> #因为本次是伪分布,所以只能是1,否则报错,原因是没有其他节点可供数据存储
</property>
</configuration>
(4)配置mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(5)配置yarn-site.xml文件
vi yarn-site.xml 添加两个变量如下
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>work01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
(6)关闭系统防火墙
因为运行hadoop需要开启某些端口,系统防火墙默认是将其关闭的,为了不一个一个找出端口并打开,所以直接关掉防火墙就可以了
查看防火墙状态: sudo service iptables status
关闭防火墙:sudo service iptables stop
以上这种方式只能关闭一次防火墙,下次系统启动的时候还是会开启,因为防火墙默认是自启动的,因此还需要将自启动防火墙关闭
========================================================
经过以上这些配置之后,就可以启动hadoop了
可以在hadoop安装目录下的bin文件夹下找到hadoop运行启动
export HADOOP_HOME=/home/hadoop/app/hadoop-2.4.1
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
可以看出,初始化就是在data文件夹下建立了一些子文件夹和文件等
(1)启动hdfs
命令 start-hdfs.sh
可以进行修改,设置指定的DataNode机器名,本次就只有一个work01
(2)启动yarn
命令start-yarn.sh
这里resourcemanager 我们之前设置过,而 nodemanager同样会去读取slaves文件,刚才我们设置过为work01,所以这次就是work01
下一篇: hadoop学习(day01)-环境搭建
推荐阅读
-
大数据学习笔记【一】:Hadoop-3.1.2完全分布式环境搭建(Windows 10)
-
用三台虚拟机搭建Hadoop全分布集群
-
Ubuntu16.04下伪分布式环境搭建之hadoop、jdk、Hbase、phoenix的安装与配置
-
hadoop平台搭建之伪分布式配置
-
hadoop学习(三)----hadoop2.x完全分布式环境搭建
-
hadoop学习笔记之hadoop伪分布集群搭建(三)
-
Hadoop学习(二)Hadoop伪分布式搭建
-
学习笔记_Hadoop伪分布式搭建
-
Hadoop学习(三)_伪分布式搭建
-
Hadoop源码学习笔记之NameNode启动流程分析一:源码环境搭建和项目模块及NameNode结构简单介绍