Spark SQL 的Thrift Server服务不稳定解决办法

程序员文章站 2022-07-05 22:32:45

pache Spark 现在是大数据中非常流行的处理引擎，简单的API、内存计算、很好的性能、一站式的解决方案、良好的生态，Spark是大数据中最火的明星AngelaBaby。在Spark内部...

pache Spark 现在是大数据中非常流行的处理引擎，简单的API、内存计算、很好的性能、一站式的解决方案、良好的生态，Spark是大数据中最火的明星AngelaBaby。在Spark内部的多个组件中，SQL组件也是很多公司用的最多的一个内部组件。由于Spark SQL并不适用于大并发的场景，所以在实际的生产过程中发现，由于SparkSQL并不能限制用户数，经常会有过多的用户以及过多的任务，导致Spark SQL 的Thrift Server服务非常不稳定。

这个问题在生产过程中非常实际，我们一般建议使用开源软件 HAProxy来解决，下面主要叙述一下具体的解决步骤；顺带一句HAproxy不仅可以解决Spark SQL的连接数，也可以用来用于部署Spark的HA。

安装

yum -y install gcc automake autoconf libtool make

至HAProxy的官网网站http://www.haproxy.org/下载最新版本的安装包haproxy-1.7.5.tar.gz。

[root@zdh223 ~]#tar zxvf haproxy-1.7.5.tar.gz

[root@zdh223 ~]#cd haproxy-1.7.5

[root@zdh223 ~]#make TARGET=zdh221

[root@zdh223 ~]#make install

安装结束。

在任意目录下执行 haproxy –vv 如果能正确显示haproxy的版本号，即表示安装正确。

配置

在haproxy-1.7.5目录下创建文件sparksql.cfg，文件名可以任意。内容如下：

global
daemon
nbproc1
pidfile/opt/haproxy-1.4.24/haproxy.pid
ulimit-n65535

defaults
modetcp#mode{tcp|http|health}，tcp表示4层，http表示7层，health仅作为健康检查使用
retries2#尝试2次失败则从集群摘除
optionredispatch#如果失效则强制转换其他服务器
optionabortonclose#连接数过大自动关闭
maxconn1024#最大连接数
timeoutconnect1d#连接超时时间，重要，hive查询数据能返回结果的保证
timeoutclient1d#同上
timeoutserver1d#同上
timeoutcheck2000#健康检查时间
log127.0.0.1local0err#[errwarninginfodebug]

listenadmin_stats#定义管理界面
bind0.0.0.0:8040#管理界面访问IP和端口
modehttp#管理界面所使用的协议
maxconn10#最大连接数
statsrefresh30s#30秒自动刷新
statsuri/#访问url
statsrealmHive\Haproxy#验证窗口提示
statsauthdc:dc#401验证用户名密码

listenhive#hive后端定义
bind0.0.0.0:10000#ha作为proxy所绑定的IP和端口
modetcp#以4层方式代理，重要
balanceleastconn#调度算法'leastconn'最少连接数分配，或者'roundrobin'，轮询分配
maxconn1024#最大连接数
serverhive_1dc-dev004.dx.momo.com:10002checkinter180000rise1fall2
serverhive_2dc-dev005.dx.momo.com:10002checkinter180000rise1fall2
#释义：server主机代名(你自己能看懂就行)，IP:端口每180000毫秒检查一次。也就是三分钟。
#hive每有10000端口的请求就会创建一个log，设置短了，/tmp下面会有无数个log文件，删不完。

#释义：server 主机代名，IP:端口 每180000毫秒检查一次。也就是三分钟。

蓝色部分配置需要重点关注，视实际情况配置。

启停

·启动

依次启动sparksql后，启动haproxy。

haproxy -f sparksql.cfg

·停止

使用ps -ef|grep haproxy检查出进程后kill。

验证

·功能验证

在多台客户端的spark目录下执行：

bin/beeline-u jdbc:hive2://zdh221:18001 -n mr

均可以正常连接，并进行操作。

查看haproxy的web页面，http://10.43.156.221:1090/口令：admin/123456 (上文配置)，可以看到各服务器均有负载。

查看每个sparksql的后台日志，可以看到均有业务日志。

·最大连接数验证

更改上文配置文件中的listen SparkSql下的maxconn 1024为2，并重启haproxy。

当在2台客户端的spark目录下使用beeline，均可以连接并操作，当使用第3台客户端的beeline连接时候，会显示连接等待，无法连接。

上一篇： MySQL数据库的内存结构

下一篇： MongoDB分片详解

Spark SQL 的Thrift Server服务不稳定解决办法

在Windows2012下安装SQL Server 2005无法启动服务的解决办法

SQL Server 连接到服务器错误233的解决办法

在Windows2012下安装SQL Server 2005无法启动服务的解决办法