Hadoop2.3.0详细安装过程

程序员文章站 2024-01-18 09:53:04

...

前言：
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。
1，系统架构
集群角色：
2.2 用户目录创建
创建hadoop运行账户：
2.3 配置ssh免密码登陆
参考文章地址：http://blog.csdn.net/ab198604/article/details/8250461
2.3.1 每个节点分别产生密钥
# 提示：
2.3.2 在data01(192.168.52.129)上面执行：
useradd hadoop #设置hadoop用户组
2.3.3 在data01(192.168.52.130)上面执行：
useradd hadoop #设置hadoop用户组
2.3.4 构造3个通用的authorized_keys
在name01(192.168.52.128)上操作:
2.3.5 解决ssh name01失败的问题
[hadoop@data01 ~]$ ssh name01
2.3.6 验证name01、data01、data02任何ssh免密码登录
[hadoop@data02 ~]$ ssh name01
3.2，安装hadoop
下载软件包：
3.3，hadoop配置文件
hadoop群集涉及配置文件：hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml yarn-env.sh slaves yarn-site.xml
3.3，格式化文件系统
在name01主库上面执行 hadoop namenode -format操作，格式化hdfs文件系统。
3.4，hadoop管理
3.4.1 格式化完成后，开始启动hadoop 程序启动hadoop 的命令脚本都在$HADOOP_HOME/sbin/下，下面的所有命令都不再带有完整路径名称：
distribute-exclude.sh hdfs-config.sh slaves.sh start-dfs.cmd start-yarn.sh stop-dfs.cmd stop-yarn.sh
3.4.2，第一种，一次性全部启动：
执行start-all.sh 启动hadoop，观察控制台的输出，可以看到正在启动进程，分别是namenode、datanode、secondarynamenode、jobtracker、tasktracker，一共5 个，待执行完毕后，并不意味着这5 个进程成功启动，上面仅仅表示系统正在启动进程而已。我们使用jdk 的命令jps 查看进程是否已经正确启动。执行以下jps，如果看到了这5 个进程，说明hadoop 真的启动成功了。如果缺少一个或者多个，那就进入到“Hadoop的常见启动错误”章节寻找原因了。
3.4.2.1，检查后台各个节点运行的hadoop进程
[hadoop@name01 hadoop]$ jps
3.4.2.3，再去data02节点下检查
[hadoop@data02 ~]$ jps
进入http://192.168.52.128:50070/dfshealth.html#tab-overview，看集群基本信息，如下图所示：
Hadoop2.3.0详细安装过程进入http://192.168.52.128:50070/dfshealth.html#tab-datanode，看datanode信息，如下图所示：
进入http://192.168.52.128:50070/logs/，查看所有日志信息，如下图所示：
3.4.2.5，关闭hadoop 的命令是stop-all.sh，如下所示：
[hadoop@name01 src]$ /home/hadoop/src/hadoop-2.3.0/sbin/stop-all.sh
3.4.3，第二种，分别启动HDFS 和yarn：
执行命令start-dfs.sh，是单独启动hdfs。执行完该命令后，通过jps 能够看到NameNode、DataNode、SecondaryNameNode 三个进程启动了，该命令适合于只执行hdfs
3.4.3.2 再启动yarn
执行命令start-yarn.sh，可以单独启动资源管理器的服务器端和客户端进程，关闭的命令就是stop-yarn.sh
3.4.3.3 依次关闭，先关闭yarn再关闭HDFS
[hadoop@name01 sbin]$ stop-yarn.sh
3.4.4，第三种，分别启动各个进程：
[root@book0 bin]# jps
3.5，另外一种检查状态hadoop集群的状态
：用"hadoop dfsadmin -report"来查看hadoop集群的状态
参考网址：
http://blog.csdn.net/hguisu/article/details/7237395