MySQL数据库监控软件lepus使用问题以及解决办法
在使用lepus3.7监控mysql数据库的时候,碰到了以下几个问题,本博客给出了这些问题产生的原因,以及相应的解决办法。
1. 问题1:php页面无法连接数据库
直接使用php程序执行php文件,可以连接mysql,但是在httpd中同样的php页面无法连接mysql。
lepus的web程序(php代码)无法连接数据库时,web界面上什么操作也无法继续。
为此编写了最简单的pdo连接测试代码:
php代码如下:
[x@coe2coe lepus]$ cat mysql.php <?php try{ #$dsn="mysql:host=127.0.0.1;dbname=lepus;"; $dsn="mysql:host=11.1.1.11;dbname=lepus;"; $user="coe2coe"; $pwd="xxxxxxxxxx"; $sql="select now() as a"; $dbh=new pdo($dsn,$user,$pwd); $stmt=$dbh->prepare($sql); $stmt->execute(); $row=$stmt->fetch(pdo::fetch_assoc); echo "result:".$row['a']; } catch(pdoexception $e) { echo "failed:".$e->getmessage(); } ?>
php程序直接执行php文件:
[x@coe2coe lepus]$ php mysql.php result:2018-09-27 00:03:44
通过浏览器访问这个页面:
failed:sqlstate[hy000] [2003] can't connect to mysql server on '11.1.1.11' (13)
lepus的web程序给出的错误提示信息更加模糊。
原因:
通过一番baidu之后,终于看到了一个比较靠谱的分析。
linux(centos7)的selinux安全机制禁止了httpd中的模块访问网络。
[x@coe2coe lepus]$ sudo getsebool -a |grep httpd httpd_anon_write --> off httpd_builtin_scripting --> on httpd_can_check_spam --> off httpd_can_connect_ftp --> off httpd_can_connect_ldap --> off httpd_can_connect_mythtv --> off httpd_can_connect_zabbix --> off httpd_can_network_connect --> off httpd_can_network_connect_cobbler --> off httpd_can_network_connect_db --> off httpd_can_network_memcache --> off httpd_can_network_relay --> off httpd_can_sendmail --> off httpd_dbus_avahi --> off httpd_dbus_sssd --> off httpd_dontaudit_search_dirs --> off httpd_enable_cgi --> on httpd_enable_ftp_server --> off httpd_enable_homedirs --> off httpd_execmem --> off httpd_graceful_shutdown --> on httpd_manage_ipa --> off httpd_mod_auth_ntlm_winbind --> off httpd_mod_auth_pam --> off httpd_read_user_content --> off httpd_run_ipa --> off httpd_run_preupgrade --> off httpd_run_stickshift --> off httpd_serve_cobbler_files --> off httpd_setrlimit --> off httpd_ssi_exec --> off httpd_sys_script_anon_write --> off httpd_tmp_exec --> off httpd_tty_comm --> off httpd_unified --> off httpd_use_cifs --> off httpd_use_fusefs --> off httpd_use_gpg --> off httpd_use_nfs --> off httpd_use_openstack --> off httpd_use_sasl --> off httpd_verify_dns --> off
解决办法:
临时办法:临时禁用selinux。
[x@coe2coe lepus]$ sudo setenforce 0
永久办法:修改selinux配置文件,禁用selinux。
[x@coe2coe lepus]$ cat /etc/selinux/config # this file controls the state of selinux on the system. # selinux= can take one of these three values: # enforcing - selinux security policy is enforced. # permissive - selinux prints warnings instead of enforcing. # disabled - no selinux policy is loaded. #selinux=enforcing selinux=disabled # selinuxtype= can take one of three two values: # targeted - targeted processes are protected, # minimum - modification of targeted policy. only selected processes are protected. # mls - multi level security protection. selinuxtype=targeted
验证:
再次在浏览器中访问这个php页面:
result:2018-09-27 00:09:26
2. 问题2:lepus日志中出现group by警告。
2018-09-27 01:12:41 [warning] check mysql 11.1.1.11:3408 failure: 1055 expression #2 of select list is not in group by clause and contains nonaggregated column 'information_schema.processlist.user' which is not functionally dependent on columns in group by clause; this is incompatible with sql_mode=only_full_group_by
原因:
这是lepus后端监控程序写的log。
默认情况下sql_mode包含only_full_group_by。
mysql> select @@sql_mode; +-------------------------------------------------------------------------------------------------------------------------------------------+ | @@sql_mode | +-------------------------------------------------------------------------------------------------------------------------------------------+ | only_full_group_by,strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_auto_create_user,no_engine_substitution | +-------------------------------------------------------------------------------------------------------------------------------------------+ 1 row in set (0.01 sec)
解决办法:
去掉only_full_group_by。
sql_mode=strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_auto_create_user,no_engine_substitution
3. 问题3:复制监控查询不到数据。
没有查询到数据.
解决办法:
show_compatibility_56=1
4. 问题4:表空间分析没有数据。
5. 问题5:慢查询没有数据。
前提:
mysql的my.cnf配置文件中已经配置了慢查询日志。
slow_query_log=1 long_query_time=10 log_slow_admin_statements=1 log_slow_slave_statements=1
原因:
1.lepus慢查询分析基于pecona-toolkit工具包中的pt-query-digest程序。需要先安装这个工具包。
2. pt-query-digest程序与lepus3.7建的表有点冲突。
pipeline process 5 (iteration) caused an error: dbd::mysql::st execute failed: data truncated for column 'checksum' at row 1 [for statement "replace into `lepus`.`mysql_slow_query_review_history`(`checksum`, `sample`, `serverid_max`, `db_max`, `user_max`, `ts_min`,
.....
terminating pipeline because process 4 (iteration) caused too many errors.
修改mysql_slow_query_review:
mysql> alter table mysql_slow_query_review modify checksum varchar(100) not null ; query ok, 0 rows affected (0.03 sec) records: 0 duplicates: 0 warnings: 0 修改mysql_slow_query_review_history: mysql> alter table mysql_slow_query_review_history modify checksum varchar(100) not null; query ok, 0 rows affected (0.02 sec) records: 0 duplicates: 0 warnings: 0 mysql> alter table mysql_slow_query_review_history modify serverid_max smallint(4) null; query ok, 0 rows affected (0.02 sec) records: 0 duplicates: 0 warnings: 0
修改脚本:
原始的lepus_slowquery.sh文件存在一些问题。
(1) 需要人工指定lepus_server_id。这个脚本需要在每个mysql服务器上部署,因此如果要监控的mysql很多,会比较容易出错。
lepus_server_id这个参数很重要。下面的代码可以自动取得这个id。
id=$( $mysql_client -h$lepus_db_host -p$lepus_db_port -u$lepus_db_user -p$lepus_db_password -e "select id,host,port from $lepus_db_database.db_servers_mysql where host='$mysql_host' and port=$mysql_port\g" 2>/dev/null |grep "id:" |awk -f": " '{print $2}')
(2)同一台机器上如果部署有多个mysql服务实例时,应该只需要一个定时任务即可,在另一脚本中同时对本机的多个mysql服务实例进行检查。
这个总的定时脚本如下,测试时开启了6个mysql实例,端口依次为:3306 3307 3308 3406 3407 3408.其中3306和3406为master,其它为slave。在这个总的脚本中对每个实例调用lepus_slowquery.sh。
[x@coe2coe mysql]$ cat slowquery.sh ################################################################## # filename :slowquery.sh # author : coe2coe@qq.com # created :2018-09-27 # description :http://www.cnblogs.com/coe2coe/ ################################################################# #!/bin/bash ports=(3306 3307 3308 3406 3407 3408) i=0 while [ $i -lt ${#ports[*]} ] do port=${ports[$i]} echo -e "/lepus_slowquery.sh $port" ./lepus_slowquery.sh $port let i=i+1 done
(3)原始的lepus_slowquery.sh会去修改mysql的全局配置参数,个人认为不需要修改,这两个配置还是应该按照mysql服务器的my.cnf文件中配置的为准,不应该因为部署了一个lepus监控系统就随意的修改这个参数。因此直接注释掉了最后面的几行代码。
long_query_time slow_query_log_file
修改后的完整的lepus_slowquery.sh文件如下:
[x@coe2coe mysql]$ cat lepus_slowquery.sh #!/bin/bash #****************************************************************# # scriptname: /usr/local/sbin/lepus_slowquery.sh # create date: 2014-03-25 10:01 # modify date: 2014-03-25 10:01 #***************************************************************# port=$1 id=$2 if [ "$port" == "" ] || [ $port -lt 1 ] then echo -e "invalid argument port" exit 1 fi echo -e "mysql port is :{$port} " #config lepus database server lepus_db_host="11.1.1.11" lepus_db_port=3306 lepus_db_user="lepus_monitor" lepus_db_password="xxxxxxxxxx" lepus_db_database="lepus" #config mysql server mysql_client="/usr/bin/mysql" mysql_host="11.1.1.11" mysql_port=$port mysql_user="lepus_monitor" mysql_password="xxxxxxxxxx" id=$( $mysql_client -h$lepus_db_host -p$lepus_db_port -u$lepus_db_user -p$lepus_db_password -e "select id,host,port from $lepus_db_database.db_servers_mysql where host='$mysql_host' and port=$mysql_port\g" 2>/dev/null |grep "id:" |awk -f": " '{print $2}') if [ "$id" == "" ] || [ $id -lt 1 ] then echo -e "invalid argument id" exit 2 fi echo -e "mysql lepus id is :{$id}" #config slowqury slowquery_dir="/tmp/" slowquery_long_time=1 slowquery_file=`$mysql_client -h$mysql_host -p$mysql_port -u$mysql_user -p$mysql_password -e "show variables like 'slow_query_log_file'" 2>/dev/null |grep log|awk '{print $2}'` pt_query_digest="/usr/bin/pt-query-digest" #config server_id lepus_server_id=$id #collect mysql slowquery log into lepus database $pt_query_digest --user=$lepus_db_user --password=$lepus_db_password --port=$lepus_db_port --review h=$lepus_db_host,d=$lepus_db_database,t=mysql_slow_query_review --history h=$lepus_db_host,d=$lepus_db_database,t=mysql_slow_query_review_history --no-report --limit=100% --filter=" \$event->{add_column} = length(\$event->{arg}) and \$event->{serverid}=$lepus_server_id " $slowquery_file > /tmp/lepus_slowquery.log ##### set a new slow query log ########### #tmp_log=`$mysql_client -h$mysql_host -p$mysql_port -u$mysql_user -p$mysql_password -e "select concat('$slowquery_dir','slowquery_', '$port','_', date_format(now(),'%y%m%d%h'),'.log');" 2>/dev/null |grep log|sed -n -e '2p'` #config mysql slowquery #$mysql_client -h$mysql_host -p$mysql_port -u$mysql_user -p$mysql_password -e "set global slow_query_log=1;set global long_query_time=$slowquery_long_time;" 2>/dev/null #$mysql_client -h$mysql_host -p$mysql_port -u$mysql_user -p$mysql_password -e "set global slow_query_log_file = '$tmp_log'; " #delete log before 7 days #cd $slowquery_dir #/usr/bin/find ./ -name 'slowquery_*' -mtime +7|xargs rm -rf ; ####end####
6. 问题6:web慢查询查询不到lepus中的数据
在mysql_slow_query_review表中记录了慢查询,但是在lepus web界面上没有数据。
执行:select sleep(14)有时候无法在web界面查询到。
原因:有时候pt-query-digest产生的结果中db_max为null,导致查询不出来。
这个字段安装的原始数据库是not null,但是在not null的情况下pt-query-digest有时会插入null数据,导致报错。所以修改为了null。
修改为null后,web界面中查询时使用的php程序的sql语句有问题,没有考虑null的情况,导致查询不出来这部分数据。
解决办法:
临时打开general_log这个全局参数,再做web查询慢日志,就可以很快找到这个sql语句,再根据这个sql语句就可以找到有问题的php代码。
将 application/controllers/lp_mysql.php中的以下语句注释掉即可。
修改前:
$this->db->where( "b.db_max !=", 'information_schema'");
修改后:
//$this->db->where( "b.db_max !=", 'information_schema'");
7. 问题7:主机监控中的三项都没有数据。
原因:监控主机以及被监控主机上没有安装snmpd,snmptrapd。
解决办法:
在所有主机上安装snmpd和snmptrapd。
软件包:
x@coe2coe snmp]$ ls net-snmp* net-snmp-5.7.2-32.el7.x86_64.rpm net-snmp-agent-libs-5.7.2-32.el7.x86_64.rpm net-snmp-devel-5.7.2-32.el7.x86_64.rpm net-snmp-libs-5.7.2-32.el7.x86_64.rpm net-snmp-perl-5.7.2-32.el7.x86_64.rpm net-snmp-python-5.7.2-32.el7.x86_64.rpm net-snmp-sysvinit-5.7.2-32.el7.x86_64.rpm net-snmp-utils-5.7.2-32.el7.x86_64.rpm
centos7-everything-xxx.iso上有这些软件包。
安装完毕后启动snmpd和snmptrapd服务。
总结
以上所述是小编给大家介绍的mysql数据库监控软件lepus使用问题以及解决办法,希望对大家有所帮助