第 8 节 Flinkonyarn集群HA配置

程序员文章站 2022-06-16 17:25:43

...

1、HA集群环境规划

flink on yarn的HA其实是利用yarn自己的恢复机制。

在这需要用到zk，主要是因为虽然flink-on-yarnclusterHA依赖于Yarn自己的集群机制，但是FlinkJob在恢复时，需要依赖检查点产生的快照，而这些快照虽然配置在hdfs，但是其元数据信息保存在zookeeper中，所以我们还要配置zookeeper的信息

hadoop搭建的集群，在flink105，flink106，flink107节点上面【flink on yarn使用伪分布hadoop集群和真正分布式hadoop集群，在操作上没有区别】zookeeper服务也在flink105节点上

flink105
第 8 节 Flinkonyarn集群HA配置

2、开始配置+启动

主要在flink105这个节点上配置即可

（1）首先需要修改hadoop中yarn-site.xml中的配置

//添加
//设置提交应用程序的最大尝试次数
<property>
<name>yarn.resourcemanager.am.max-attempts</name>
<value>4</value>
<description>
Themaximumnumberofapplicationmasterexecutionattempts.
</description>
</property>

（2）删除flink106、flink107机器的flink文件

[root@Flink106 module]# rm -rf flink-1.7.0/
[root@Flink107 module]# rm -rf flink-1.7.0/

（3）同步分发到别的机器

[root@Flink105 hadoop-2.7.2]# scp -rq etc/hadoop/yarn-site.xml  flink106:/opt/hadoop/module/hadoop-2.7.2/etc/hadoop/
[root@Flink105 hadoop-2.7.2]# scp -rq etc/hadoop/yarn-site.xml  flink107:/opt/hadoop/module/hadoop-2.7.2/etc/hadoop/

（3）可以解压一份新的flink-1.7安装包


//分发安装包到别的机器
[root@Flink105 hadoop]# scp -r flink-1.7.0-bin-hadoop27-scala_2.11.tgz flink106:/opt/hadoop/

flink-1.7.0-bin-hadoop27-scala_2.11.tgz                                                                                                  100%  274MB  25.0MB/s   00:10    

[root@Flink105 hadoop]# scp -r flink-1.7.0-bin-hadoop27-scala_2.11.tgz flink107:/opt/hadoop/
flink-1.7.0-bin-hadoop27-scala_2.11.tgz    

//重新解压新的flink-1.7安装包   
[root@Flink105 hadoop]# tar -zxvf flink-1.7.0-bin-hadoop27-scala_2.11.tgz -C module/
//重新解压新的flink-1.7安装包   
[root@Flink106 hadoop]# tar -zxvf flink-1.7.0-bin-hadoop27-scala_2.11.tgz -C module/
//重新解压新的flink-1.7安装包  
[root@Flink107 hadoop]# tar -zxvf flink-1.7.0-bin-hadoop27-scala_2.11.tgz -C module/

（4）修改配置文件

[root@Flink105 conf]# vim flink-conf.yaml 


high-availability:zookeeper
high-availability.zookeeper.quorum:flink105:2181high-availability.storageDir:hdfs://flink105:9000/flink/ha-yarn
high-availability.zookeeper.path.root:/flink-yarn
yarn.application-attempts:10

第 8 节 Flinkonyarn集群HA配置

（5）启动flinkonyarn，测试HA

//先启动zookeeper
[root@Flink105 bin]# ./zkServer.sh start
//查看进程
[root@Flink105 bin]# ./zkServer.sh status
JMX enabled by default
Using config: /opt/hadoop/module/zookeeper-3.4.5/bin/../conf/zoo.cfg
Mode: follower


//后启动hadoop集群
[root@Flink105 bin]# start-all.sh

//在flink105上启动Flink集群
[root@Flink105 flink-1.7.0]# bin/yarn-session.sh -n2

加载过程：
第 8 节 Flinkonyarn集群HA配置
web网页访问方式：
http://flink107:35425

当然，也可以访问
http://flink105:8088

第 8 节 Flinkonyarn集群HA配置
跳转至

在hadoop的8088端口查看（运行机器）

第 8 节 Flinkonyarn集群HA配置

（6）命令查看机器
第 8 节 Flinkonyarn集群HA配置

[root@Flink107 hadoop]# jps
9985 YarnSessionClusterEntrypoint
10115 Jps
7943 QuorumPeerMain
9639 DataNode
9735 NodeManager
8399 TaskManagerRunner
[root@Flink107 hadoop]# kill 9985  //干掉YarnSessionClusterEntrypoint进程

//发现没有YarnSessionClusterEntrypoint进程
[root@Flink107 hadoop]# jps
10144 Jps
7943 QuorumPeerMain
9639 DataNode
9735 NodeManager
8399 TaskManagerRunner

然后去yarn的web界面进行查看：
第 8 节 Flinkonyarn集群HA配置

第 8 节 Flinkonyarn集群HA配置

1、HA集群环境规划

2、开始配置+启动

Hadoop配置第1节-集群网络配置

第 8 节 Flinkonyarn集群HA配置

Hadoop配置第1节-集群网络配置