Hadoop集群搭建-01前期准备

程序员文章站 2022-06-23 14:52:31

"Hadoop集群搭建 05安装配置YARN" "Hadoop集群搭建 04安装配置HDFS " "Hadoop集群搭建 03编译安装hadoop" "Hadoop集群搭建 02安装配置Zookeeper" "Hadoop集群搭建 01前期准备" 整个搭建hadoop集群的流程，包括 1. 前期准备 ......

hadoop集群搭建-05安装配置yarn

hadoop集群搭建-04安装配置hdfs

hadoop集群搭建-03编译安装hadoop

hadoop集群搭建-02安装配置zookeeper

hadoop集群搭建-01前期准备

整个搭建hadoop集群的流程，包括

前期准备
安装zookeeper并配置环境
编译安装hadoop并启动
安装hdfs管理namenode和dataname管理集群硬盘资源
安装启动yarn建立mapreduce管理cpu和内存资源

01前期准备：

1.部署环境

vmware15
centos7
jdk8

首先启动一台centos7的虚拟机，配置华为云yum源

[root@localhost ~]# cp -a /etc/yum.repos.d/centos-base.repo /etc/yum.repos.d/centos-base.repo.bak
[root@localhost ~]# wget -o /etc/yum.repos.d/centos-base.repo https://repo.huaweicloud.com/repository/conf/centos-7-reg.repo
[root@localhost ~]# yum clean all
[root@localhost ~]# yum makecache
[root@localhost ~]# yum update -y

然后安装一些乱七八糟的常用软件

[root@localhost ~]# yum install -y openssh-server vim gcc gcc-c++ glibc-headers bzip2-devel lzo-devel curl wget openssh-clients zlib-devel autoconf automake cmake libtool openssl-devel fuse-devel snappy-devel telnet unzip zip net-tools.x86_64 firewalld systemd

2.关闭虚拟机的防火墙和selinux设置

[root@localhost ~]# firewall-cmd --state
[root@localhost ~]# systemctl stop firewalld.service
[root@localhost ~]# systemctl disable firewalld.service
[root@localhost ~]# systemctl is-enabled firewalld.service

[root@localhost ~]# /usr/sbin/sestatus -v  查看selinux的状态
[root@localhost ~]# vim /etc/selinux/config
#修改状态为关闭
selinux=disabled
[root@localhost ~]# reboot

3.安装jdk8并配置环境变量

[root@localhost ~]# rpm -ivh jdk-8u144-linux-x64.rpm
[root@localhost ~]# vim /etc/profile
#修改环境变量,在文件末尾添加如下
export java_home=/usr/java/jdk1.8.0_144
export jre_home=$java_home/jre
export path=$path:$java_home/bin
export classpath=.:$java_home/lib/dt.jar:$java_home/lib/tools.jar

修改后只是对应此次用户此次会话生效，希望永久全局生效，就要

[root@localhost ~]# source /etc/profile

4.安装ntpdate服务，每次虚拟机挂起重新启用后方便同步时间

[root@localhost ~]# yum install -y ntp-tools
[root@localhost ~]# ntpdate ntp1.aliyun.com

5.创建hadoop用户和用户组并加入wheel组

[root@localhost ~]# useradd hadoop
[root@localhost ~]# passwd hadoop

只允许wheel组内用户可以通过su - root命令登录root用户,提高安全性

[root@localhost ~]# sed -i 's/#auth\t\trequired\tpam_wheel.so/auth\t\trequired\tpam_wheel.so/g' '/etc/pam.d/su'
[root@localhost ~]# cp /etc/login.defs /etc/login.defs_bak
[root@localhost ~]# echo "su_wheel_only yes" >> /etc/login.defs

添加hadoop用户进wheel组

[root@localhost ~]# gpasswd -a hadoop wheel
[root@localhost ~]# cat /etc/group | grep wheel     查看hadoop有没有加入到wheel组

Hadoop集群搭建-01前期准备

6.配置虚拟机的hosts文件

[root@localhost ~]# vim /etc/hosts
192.168.10.3 nn1.hadoop   #这个是本机ip，主机名稍后一起配置
192.168.10.4 nn2.hadoop
192.168.10.5 s1.hadoop
192.168.10.6 s2.hadoop
192.168.10.7 s3.hadoop

7.用虚拟机克隆功能克隆另外4台虚拟机

完成后_分别更改每一台_的主机名并配置静态ip，要求和上面hosts文件内的一致并对应

[root@localhost ~]# hostnamectl set-hostname nn1.hadoop
[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
type="ethernet"
proxy_method="none"
browser_only="no"
bootproto="static"      #这里修改为static
ipaddr="192.168.10.3"   #这里添加为你的每台虚拟机对应的ip
netmask="255.255.255.0" #添加
gateway="192.168.10.2"  #添加为你虚拟机内的网关
dns="192.168.10.2"      #添加
nm_controlled="no"      #添加，必然改完文件自动生效，可能直接网络就挂掉了
defroute="yes"
ipv4_failure_fatal="no"
ipv6init="yes"
ipv6_autoconf="yes"
ipv6_defroute="yes"
ipv6_failure_fatal="no"
ipv6_addr_gen_mode="stable-privacy"
name="ens33"
uuid="49f05112-b80b-45c2-a3ec-d64c76ed2d9b"
device="ens33"
onboot="yes"

[root@localhost ~]# systemctl stop networkmanager.service   停止网络管理服务
[root@localhost ~]# systemctl disable networkmanager.service 开机禁止自启动
[root@localhost ~]# systemctl restart network.service  重启网络服务

至此我们应该有五台虚拟机，都按照如下ip和主机名配置对应好，五台都设置好了hosts文件

192.168.10.3 nn1.hadoop
192.168.10.4 nn2.hadoop
192.168.10.5 s1.hadoop
192.168.10.6 s2.hadoop
192.168.10.7 s3.hadoop

然后防火墙、selinux都已经关闭，都正确安装jdk8并配置好环境变量，都正确新建了hadoop用户组并将其添加进wheel组。

8.配置五台机器互相ssh免密登录

上边的操作都是在root用户下进行的，现在切换到hadoop用户下进行以后的几乎所有操作。

[root@nn1 ~]# su - hadoop     注意这里的“-”，意味着用户和环境变量同时切换
[hadoop@nn1 ~]$    这时候代表进入到了hadoop用户，还有#和$分别代表root用户和普通用户的身份区别

开始搭建ssh免密

思路是首先在每一台机器上分别创建各自的key，最后把这些key.pub汇总到~/.ssh/authorized_keys文件中再一起分发给所有机器，这时候就实现了五台机器的互相免密ssh访问。

[hadoop@nn1 ~]$ pwd 查看当前路径，确保在hadoop用户的home下
/home/hadoop 
[hadoop@nn1 ~]$ mkdir .ssh
[hadoop@nn1 ~]$ chmod 700 ./.ssh
[hadoop@nn1 ~]$ ll -a
drwx------  2 hadoop hadoop 132 7月  16 22:13 .ssh

[hadoop@nn1 ~]$ ssh-keygen -t rsa   创建key文件

这时候完成了nn1机器的设置（nn1作为我们以后的主要操作机器）。按照上边的步骤把剩下的4台机器也弄好，然后分别把其他的4台机器的./ssh/id_rsa.pub重命名（防止重复和以外替换），再发送到nn1的./ssh/下

[hadoop@nn2 ~]$ scp ~/.ssh/id_rsa.pub hadoop@nn1.hadoop ~/.ssh/id_rsa.pubnn2

这时候nn1的~/.ssh/下应该有包括自己在内的5个pub文件（不重名），然后把他们都_追加_到下边的文件中

[hadoop@nn1 ~]$ touch authorized_keys
[hadoop@nn1 ~]$ chmod 600 authorized_keys
[hadoop@nn1 ~]$ cat ./ssh/id_rsa.pub >> authorized_keys
[hadoop@nn1 ~]$ cat ./ssh/id_rsa.pubnn2 >> authorized_keys
[hadoop@nn1 ~]$ cat ./ssh/id_rsa.pubs1 >> authorized_keys
…………

然后最后把这个文件批量发送到其余4台机器上（忘了写批量脚本了，所以用scp命令依次发送吧）

至此5台机器的ssh免密互相访问配置结束，我们可以分别测试（略）。

9.批量脚本编写

因为有5台机器啊，很多操作都要一起动，所以需要批量执行脚本。

#文件名：ips
"nn1.hadoop" "nn2.hadoop" "s1.hadoop" "s2.hadoop" "s3.hadoop"

#!/bin/bash
#文件名：ssh_all.sh
run_home=$(cd "$(dirname "$0")"; echo "${pwd}")

now_list=(`cat ${run_home}/ips`)

ssh_user="hadoop"
for i in ${now_list[@]}; do
    f_cmd="ssh $ssh_user@$i \"$*\""
    echo $f_cmd
    if eval $f_cmd; then
        echo "ok"
    else 
        echo "fail"
    fi
done

#!/bin/bash
#文件名：ssh_root.sh
run_home=$(cd "$(dirname "$0")"; echo "${pwd}")

now_list=(`cat ${run_home}/ips`)

ssh_user="hadoop"
for i in ${now_list[@]}; do
    f_cmd="ssh $ssh_user@i ~/exe.sh \"$*\""
    echo $f_cmd
    if eval $f_cmd; then
        echo "ok"
    else 
        echo "fail"
    fi
done

#文件名exe.sh
cmd=$*

su - <<eof
$cmd

eof

#!/bin/bash
run_home=$(cd "(dirname "$0")"; echo "${pwd}")

now_list=(`cat ${un_home}/ips`)

ssh_user="hadoop"
for i in ${now_list[@]}; do
    f_cmd="scp $1 $ssh_user@i:$2"
    echo $f_cmd
    if eval $f_cmd; then
        echo "ok"
    else
        echo "fail"
    fi
done

前期准备工作结束，下一篇开始安装配置zookeeper

上一篇： MySQL常用工具、日志及读写分离

下一篇： 5.kafka API consumer

Hadoop集群搭建-01前期准备

01前期准备：

1.部署环境

2.关闭虚拟机的防火墙和selinux设置

3.安装jdk8并配置环境变量

4.安装ntpdate服务，每次虚拟机挂起重新启用后方便同步时间

5.创建hadoop用户和用户组并加入wheel组

6.配置虚拟机的hosts文件

7.用虚拟机克隆功能克隆另外4台虚拟机

8.配置五台机器互相ssh免密登录

上边的操作都是在root用户下进行的，现在切换到hadoop用户下进行以后的几乎所有操作。

9.批量脚本编写

01-Hadoop概述及基础环境搭建

Mac-搭建Hadoop集群

H01_Linux系统中搭建Hadoop和Spark集群

详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境

第3章 Hadoop 2.x分布式集群搭建

hadoop搭建的前期准备

Hadoop HA 高可用集群搭建

hadoop的client搭建-即集群外主机访问hadoop

详解使用docker搭建hadoop分布式集群

用三台虚拟机搭建Hadoop全分布集群