Hadoop(1.1)——xsync集群分发脚本

程序员文章站 2024-02-25 16:26:09

...

Hadoop运行模式：

Local Mode

本地模式，数据存储在linux本地，测试时偶尔用
Psedo-Distributed Mode

伪分布式模式：数据存储在HDFS，适用预算有限的情况
Fully-Distributed Mode

完全分布式，数据存储在HDFS/多台服务器工作，企业大量用这个

完全分布式运行模式的搭建

步骤：

准备3台客户机（关闭防火墙、静态ip、主机名称）
安装JDK，配置环境变量
安装Hadoop，配置环境变量
配置集群
单点启动
配置ssh
群起并测试集群

1、编写集群分发脚本xsync

将102号主机上的JDK和hadoop拷贝到103、104中

1）scp（secure copy）安全拷贝
scp可以实现服务器之间的数据拷贝。

#基本语法：scp -r(递归) $pdir/$fname(文件路径/名称) [email protected]$host:$pdir/$fname(目的地用户@主机:目的地路径/名称)

scp -r jdk1.8.0_212/ [email protected]:/opt/module/ #102上的命令，将本主机的jdk推到103上

sudo scp -r [email protected]:/opt/module/hadoop-3.1.3 ./ #103上的命令，将102的root用户的/opt/module/hadoop-3.1.3/ 拉取到103本路径

2）rsync远程同步工具

用于备份和镜像。rsync和scp的区别：前者只对差异文件做更改，而scp复制所有的文件速度慢。

#基本语法 rsync -av(-a 归档拷贝；-v 显示复制过程) $pdir/$fname [email protected]$host:$pdir/$fname

3）xsync集群分发脚本
循环复制文件到所有节点的相同目录下。
脚本：

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
	echo Not Enough Argument!
	exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
	echo ======================== $host ============================
	#3. 遍历所有目录，挨个发送
	for file in [email protected]
	do
		#4. 判断文件是否存在
		if [ -e $file ]
			then
				#5. 获取父目录
				pdir=$(cd -P $(dirname $file); pwd)
				
				#6. 获取当前文件的名称
				fname=$(basename $file)
				ssh $host "mkdir -p $pdir"
				rsync -av $pdir/$fname $host:$pdir
			else
				echo $file does not exist!
		fi
	done
done

将该脚本放在全局变量的文件夹下，比如 user/bin/ 下。创建完该脚本，再使用chmod 777 xsync 修改执行权限。
执行该脚本的时候，参数是一个文件或者目录，目标主机是直接写在脚本内部的。
复制完jdk、hadoop、环境变量后resource一下即可

上一篇：小知识点积累

下一篇： .NET的file文件上传控件使用方法修改web.config文件上传大文件

Hadoop(1.1)——xsync集群分发脚本

Hadoop运行模式：

完全分布式运行模式的搭建

1、编写集群分发脚本xsync

Hadoop3.2.2集群分发同步脚本

【Hadoop学习】Hadoop集群分发脚本

hadoop集群分发脚本

Hadoop(1.1)——xsync集群分发脚本

hadoop集群之间分发脚本

hadoop xsync 集群分发脚本

Hadoop ：编写xsync集群分发脚本（Linux环境下）

利用shell脚本快速启动hadoop集群-程序员的福音

hadoop-yarn集群中，利用hell脚本自动化提交spark任务

hadoop-yarn集群中，利用hell脚本自动化提交spark任务