Percona-Toolkit 之 pt-table-checksum 总结
pt-table-checksum - verify mysql replication integrity.
pt-table-checksum performs an online replication consistency check by executing checksum queries on the master, which produces different results on replicas that are inconsistent with the master.
pt-table-checksum通过指定选项连接指定服务器实例,可以通过指定条件过滤到库级别和表级别。每次检查一张表,所以并不需要大量的内存和多余的操作,即使是非常大的表也可以良好运行。根据官方文档的描述,之所以在检查大表上也能很好运行,主要是因为pt-table-checksum将表划分多个chunk,根据checksum query运行时间来调整chunk的大小,这样就减少pt-table-checksum的运行对主从复制延迟和主机负载的影响。为了保证对数据库主机运行尽可能少的影响,pt-table-checksum会自动探测从库并进行连接,如果连接失败,可以通过选项--recursion-method指定从库连接方式。
关于获取和安装percona-toolkit工具集可以参考我另一篇博文:percona-toolkit 之 pt-online-schema-change 总结中的安装部分。
pt-table-checksum [options] dsn
--ask-pass 命令行提示密码输入,保护密码安全,前提需安装模块perl-termreadkey。 --[no]check-binlog-format 默认值:yes 指定检查所有服务器上的binlog_format系统参数是否相同。 --check-interval 默认值:1s 指定因为选项'--max-lag'检查之间休眠时间。 --[no]check-replication-filters 默认值:yes 指定检测主从复制是否有设置复制过滤器。默认如果有设置复制过滤器,则工具不进行检查校验操作。 --check-slave-lag 指定主从复制延迟大于选项'--max-lag'指定的值之后暂停检查校验操作。默认情况下,工具会检查所有的从库,但该选项只作用于指定的从库(通过dsn连接方式)。 --chunk-index 指定使用哪个索引对表进行chunk分块操作。默认情况下会选择最优的索引,工具会在sql语句中添加force index子句。 --chunk-index-columns 指定使用选项'--chunk-index'的索引使用最左前缀几个索引字段,只适用于复合索引。 --chunk-size 默认值:1000 指定表分块的chunk大小,每个chunk需要校验的表行数,允许的后缀单位为k、m、g。 当指定了这个选项会覆盖工具默认动态调整chunk块大小以便在选项'--chunk-time'指定时间内完成行的校验。所以在大多数情况下不建议使用该选项,应该使用选项'--chunk-time'来调整。 --chunk-size-limit 默认值:2.0 指定chunk的行数最多可以超过选项'--chunk-size'指定的行数的多少倍。最小值是1,表示chunk的行数不能超过选项'--chunk-size'指定的值。由于行数是通过explain估算的,所以不建议指定为1。当参数值为0时,则不会检查是否超过指定的行数。 --chunk-time 默认值:0.5 动态调整每个chunk的大小使相应的表行数都在指定的时间内完成校验操作。 如果该选项值设置为0,则不会动态调整chunk的大小,就有可能造成每次校验操作的时间不同,但每个chunk大小还是一致的。 --columns,-c 指定只需要校验的字段,如有多个则用','(逗号)隔开。该选项一般只针对检验一张表时有效,除非有多张表具有相同的字段。 --[no]create-replicate-table 默认值:yes 创建选项'--replicate'指定的数据库和表。表结构与选项'--replicate'指定的结构相同。 --replicate 默认值:percona.checksums 指定保存校验结果的表。创建表的结构如下: ' create table checksums ( db char(64) not null, tbl char(64) not null, chunk int not null, chunk_time float null, chunk_index varchar(200) null, lower_boundary text null, upper_boundary text null, this_crc char(40) not null, this_cnt int not null, master_crc char(40) null, master_cnt int null, ts timestamp not null default current_timestamp on update current_timestamp, primary key (db, tbl, chunk), index ts_db_tbl (ts, db, tbl) ) engine=innodb default charset=utf8; ' 因为选项'--[no]create-replicate-table'默认值为true,所以默认情况下如果数据库和表之前不存在则会自动创建percona库和checksums表。除非另有选项指定。选项'--replicate'指定的表不会进行校验操作,指定的表默认加入选项'--ignore-tables'。 --[no]replicate-check 默认值:yes 指定在校验完每张表后检查主从当前表是否出现不一致。工具通过连接到从库执行简单的select语句查询校验结果与主库的校验结果进行差异对比,结果显示在输出中的diff字段中。 --replicate-check-only 指定仅仅执行检查主从数据是否一致而不进执行真正的校验操作(主要通过查询之前保留的校验结果)。该选项只适用于同时指定选项'--no-replicate-check'。 --replicate-check-retries 默认值:1 指定当校验出主从数据不一致重试校验的次数。 --replicate-database 指定工具在执行校验操作时在哪个数据库下进行,相当于执行了语句use [db_name]。 --resume 指定从最后完成校验的chunk开始恢复校验。适用于还未完成所有表的校验就工具就中断的情况。 --retries 默认值:2 指定当出现非严重性错误时重复校验一个块的次数。非严重性错误指的是如锁等待超时或长查询被kill的情况。 --run-time 指定校验操作运行的时间。默认情况需要校验完所有的表数据后停止,可以指定时间单位为:s(秒)、m(分钟)、h(小时)、d(天)。 --skip-check-slave-lag dsn类型,可重复使用 指定dsn连接从库时跳过主从延迟检查,可以指定多个从库检查。 --set-vars 默认: wait_timeout=10000 innodb_lock_wait_timeout=1 lock_wait_timeout=60 运行检查时指定参数值,如有多个用','(逗号)分隔。如'--set-vars=wait_timeout=5000'。 --[no]empty-replicate-table 默认值:yes 指定进行当前校验之前删除之前每张表的校验记录。该选项并不是对保存校验结果的表进行truncate,而是在校验每张表之前删除当前表之前的校验结果,因此当校验操作过早停止,则有可能还有表没有校验数据,如果是从之前校验操作恢复,也不会清空保存校验结果的表。如果想清空保存校验结果的表,则在校验操作进行之前手动对表执行truncate操作。 --databases,-d 指定只需要校验的数据库,如有多个则用','(逗号)隔开。 --engines,-e 指定只需要校验的指定存储引擎类型的表。 --explain 指定显示校验查询语句,但不执行真正的校验操作。该选项会禁用选项'--[no]empty-replicate-table',如果指定两次,则工具实际使用的是迭代的chunk算法,打印出每个块的上边界和下边界值,但不执行真正的校验。 --fail-on-stopped-replication 指定当主从复制停止时,校验中止操作并提示错误而不是等待主从复制恢复之后再进行。 --function 默认值:crc32 指定校验操作使用的哈希函数。可选函数有sha1、md5等。 --ignore-columns 指定需要忽略校验的字段,如有多个则用','(逗号)隔开。 --ignore-databases 指定需要忽略校验的数据库,如有多个则用','(逗号)隔开。 --ignore-databases-regex 指定采用正则表达式匹配忽略校验的数据库。 --ignore-engines 默认值:federated,mrg_myisam 指定需要忽略校验的存储引擎类型的表,如有多个则用','(逗号)隔开。 --ignore-tables 指定需要忽略校验的表,如有多个则用','(逗号)隔开。表名称可以使用数据库名加以限定。 --ignore-tables-regex 指定采用正则表达式匹配忽略校验的表。 --max-lag 默认值:1s 指定允许主从复制延迟时长的最大值,单位秒。如果在每次校验查询之后主从延迟超过指定的值,则校验操作将暂停执行,暂停休眠时间为选项'--check-interval'指定的值。待休眠时间结束之后再次检查主从延迟时长,检查方法是通过从库查询的'seconds_behind_master'值来确定。如果主从复制延迟一直大于该参数指定值或者从库停止复制,则操作将一直等待直到从库重新启动并且延迟小于该参数指定值。 --max-load 数组类型,默认值:threads_running = 25 在校验要询完每个chunk数据之后,运行show global status检查所指定变量值高于该参数指定变量的阈值时将暂停校验操作。如果有多个变量阈值,可以用','(逗号)进行分隔,参数指定形式可以为变量名=max_value或变量名:max_value。 如果只是指定变量名,没有为其指定阈值,则检查当前值并增加20%作为阈值。如: --max-load=threads_running:没有指定具体值,以当前查询值增加20%作为阈值,如当前为100,阈值为120; --max-load=threads_running:10:以当前指定值为阈值。 --host,-h 指定连接的数据库ip地址。 --port,-p 指定连接的数据库port端口。 --user,-u 指定连接的数据库用户。 --password,-p 指定连接的数据库用户密码。 --database,-d 指定连接的数据库。 --socket,-s 指定使用socket文件连接。 --progress 打印工具执行过程的进度提示到stderr。选项值有两部分组成,用逗号进行分隔,第一部分为百分比,时间和迭代。第二部分为根据第一部分数据更新频率,也分为百分比,时间和迭代。 --quiet,-q 不打印工具执行过程的信息到stdout(禁用'--progress')。但错误和警告还是打印到stderr。 --recurse 指定搜寻从库的层级,默认无限级。 --recursion-method 默认值:processlist,hosts 指定获取从库的方式。pt-table-checksum在执行校验操作时会执行多次replica checks操作。 method uses =========== ============================================= processlist show processlist hosts show slave hosts cluster show status like 'wsrep\_incoming\_addresses' dsn=dsn dsns from a table none do not find slaves ========================================================== processlist:通过show processlist方式找到slave,为默认方式,当show slave hosts不可用时。一旦实例运行在非3306端口上时,hosts方式就会变为默认方式; hosts:通过show slave hosts方式找到slave,hosts方式要求从库配置'--report_host'和'--report_port'这两个参数; cluster:基于集群版本galera 23.7.3及更新版本; dsn:通过读取表中从库的dsn信息进行连接。 --tables,-t 指定只需要校验的表,如有多个则用','(逗号)隔开。表名称可以使用数据库名加以限定。 --tables-regex 指定采用正则表达式匹配校验的表。 --where 指定通过where条件确定表中需要校验的数据。 --truncate-replicate-table 指定在执行校验操作之前对保存校验结果的表执行truncate操作。注意与选项'--[no]empty-replicate-table'的区分。 --version 显示工具的版本并退出。 --[no]version-check 默认值:yes 检查percona toolkit、mysql和其他程序的最新版本。
- a
指定字符集 - d
指定dsn表所在数据库 - t
指定dsn表 - h
指定要连接的host - p
指定要连接的port - s
指定连接所使用的socket文件(unix systems) - u
指定连接的用户名 - p
从库检查(replica checks)
- --[no]check-replication-filters
- --replicate指定的表
- 单个chunk大小
工具检查主库上表的是否可以在单个chunk范围内进行校验。具体说明可以参考官方说明:replica checks。
- 主从复制延迟
- 校验块
进行控制; - 工具假设主从数据库中schema和表结构都是一致的。如果从库上不存在主库的schema,或者是从库上表结构与主库不一致,则有可能导致主从复制中断。
本文基于mysql官方示例数据库employee:example databases进行测试。
-- 表employees_ptchksum信息 mysql admin@> create table employees_ptchksum as select * from employees; query ok, 300024 rows affected time: 2.688s mysql admin@> show create table employees_ptchksum\g; ***************************[ 1. row ]*************************** table | employees_ptchksum create table | create table `employees_ptchksum` ( `emp_no` int(11) not null, `birth_date` date not null, `first_name` varchar(14) not null, `last_name` varchar(16) not null, `gender` enum('m','f') not null, `hire_date` date not null ) engine=innodb default charset=utf8 1 row in set time: 0.007s -- 从库更新部分数据,使得主从出现数据不一致 mysql admin@> set sql_log_bin = 0; query ok, 0 rows affected time: 0.002s mysql admin@> update employees_ptchksum set first_name = 'georgi_ptchk' where first_name = 'georgi'; query ok, 252 rows affected time: 0.235s mysql admin@> set sql_log_bin = 1; query ok, 0 rows affected time: 0.002s
# pt-table-checksum h=,p=3306,u=admin --ask-pass --tables=employees_ptchksum
replica dbabd has binlog_format row which could cause pt-table-checksum to break replication. please read "replicas using row-based replication" in the limitations section of the tool's documentation. if you understand the risks, specify --no-check-binlog-format to disable this check.
# pt-table-checksum h=,p=3306,u=admin --ask-pass --tables=employees_ptchksum --no-check-binlog-format
04-02t15:45:40 cannot checksum table employees.employees_ptchksum: there is no good index and the table is oversized. at /usr/bin/pt-table-checksum line 6726.
-- 添加主键 mysql admin@> alter table employees_ptchksum add primary key(emp_no); query ok, 0 rows affected time: 2.271s -- 再次执行校验 # pt-table-checksum h=,p=3306,u=admin --ask-pass --tables=employees.employees_ptchksum --no-check-binlog-format enter mysql password: checking if all tables can be checksummed ... starting checksum ... ts errors diffs rows diff_rows chunks skipped time table 04-02t15:56:21 0 3 300024 0 5 0 0.845 employees.employees_ptchksum
- ts:校验完成的时间戳(没有年份显示);
- errors: 校验报错的数量;
- diffs:主从之间chunk不同的数量,如果指定
,则只有校验结果不同的表会显示; - rows:选择表校验的行数;
- chunks:表被分成的chunk数;
- skipped:跳过的chunk数,主要有以下原因:
- mysql not using the --chunk-index
- mysql not using the full chunk index (--[no]check-plan)
- chunk size is greater than --chunk-size * --chunk-size-limit
- lock wait timeout exceeded (--retries)
- checksum query killed (--retries)
- time:校验执行消耗时间(单位:秒)
- table:校验的表名
checking if all tables can be checksummed ... starting checksum ... differences on dbabd table chunk cnt_diff crc_diff chunk_index lower_boundary upper_boundary employees.employees_ptchksum 1 0 1 primary 10001 11000 employees.employees_ptchksum 2 0 1 primary 11001 35858 employees.employees_ptchksum 3 0 1 primary 35859 491954 employees.employees_ptchksum 4 0 1 primary 491955 499999
- table:与主库数据不一致的表;
- chunk:与主库相应表不同的chunk;
- cnt_diff:从库上chunk行数减去主库上chunk行数值;
- crc_diff:如果从库上对应的chunk与主库上不同,则为1,否则为0;
- chunk_index:表使用哪个索引用来进行chunk;
- lower_boundary:chunk下边界对应的索引值;
- upper_boundary:chunk上边界对应的索引值。
mysql admin@> select db, tbl, sum(this_cnt) as total_rows, count(*) as chunks from percona.checksums where ( master_cnt <> this_cnt or master_crc <> this_crc or isnull(master_crc) <> isnull(this_crc)) group by db, tbl; +-----------+--------------------+------------+--------+ | db | tbl | total_rows | chunks | +-----------+--------------------+------------+--------+ | employees | employees_ptchksum | 300024 | 4 | +-----------+--------------------+------------+--------+ 1 row in set time: 0.021s
- 主库为标准端口(3306),从库为非标准端口(非3306)
mysql admin@> show global variables like 'port'; +---------------+-------+ | variable_name | value | +---------------+-------+ | port | 3307 | +---------------+-------+ 1 row in set time: 0.027s
# pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format enter mysql password: checking if all tables can be checksummed ... starting checksum ... cannot connect to p=3306,h=,p=...,u=admin diffs cannot be detected because no slaves were found. please read the --recursion-method documentation for information.
-- 指定--recursion-method=hosts,从库必须配置参数report_host和report_port mysql admin@> show global variables like '%report%'; +-----------------+--------------+ | variable_name | value | +-----------------+--------------+ | report_host | | | report_password | | | report_port | 3307 | | report_user | | +-----------------+--------------+ 4 rows in set time: 0.035s -- 执行一致性校验 # pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method hosts ------------------------------------------------------------------ -- 指定--recursion-method=dsn,主库必须先创建dsns表,表结构如下 mysql admin@> show create table dsns; +-------+-------------------------------------------------------+ | table | create table | +-------+-------------------------------------------------------+ | dsns | create table `dsns` ( | | | `id` int(11) not null auto_increment, | | | `parent_id` int(11) default null, | | | `dsn` varchar(255) not null, | | | primary key (`id`) | | | ) engine=innodb auto_increment=2 default charset=utf8 | +-------+-------------------------------------------------------+ 1 row in set time: 0.037s -- 表中插入从库dsn信息 mysql admin@> select * from dsns; +----+-----------+-----------------------+ | id | parent_id | dsn | +----+-----------+-----------------------+ | 1 | 1 | h=,p=3307 | +----+-----------+-----------------------+ 1 row in set time: 0.022s -- 执行一致性校验 # pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns
- 主库和从库都为非标准端口(非3306)
mysql admin@> show global variables like 'port'; +---------------+-------+ | variable_name | value | +---------------+-------+ | port | 3307 | +---------------+-------+ 1 row in set time: 0.021s
同样,如果指定选项--recursion-method hosts
-- 指定--recursion-method processlist # pt-table-checksum h=,p=3307,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method processlist -- 指定--recursion-method=dsn # pt-table-checksum h=,p=3307,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns
- 对于所有类型的端口设置,dsn方式都可以使用,最为方便,也便于进行管理;
- 如果要使用hosts方式,则从库必须配置参数
;- 主库如果是标准端口(3306),则只能使用hosts或dsn方式;
- 主库如果是非标准端口(非3306),则根据从库是否配置参数
- 执行整个数据库校验
# pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns
- 执行表某个字段校验
# pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --columns=first_name --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns
- 只打印校验查询语句
# pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns --explain enter mysql password: checking if all tables can be checksummed ... starting checksum ... -- -- employees.employees_ptchksum -- replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select ?, ?, ?, ?, ?, ?, count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= ?)) and ((`emp_no` <= ?)) /*checksum chunk*/ replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select ?, ?, ?, ?, ?, ?, count(*), '0' from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` < ?)) order by `emp_no` /*past lower chunk*/ replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select ?, ?, ?, ?, ?, ?, count(*), '0' from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` > ?)) order by `emp_no` /*past upper chunk*/ select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= ?)) order by `emp_no` limit ?, 2 /*next chunk boundary*/
- 指定校验分块(chunk)大小
# pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns --chunk-size=66666
- 指定每个分块(chunk)校验时间
# pt-table-checksum h=,p=3306,u=admin --ask-pass --databases=employees --tables=employees_ptchksum --no-check-binlog-format --recursion-method dsn=d=percona,t=dsns --chunk-time=2
通过general log
-- 初始的一些检查数据库参数、负载信息这里不再细说 51 connect admin@dbabd1 on using tcp/ip 51 query show variables like 'innodb\_lock_wait_timeout' 51 query set session innodb_lock_wait_timeout=1 51 query show variables like 'wait\_timeout' 51 query set session wait_timeout=10000 51 query select @@sql_mode 51 query set @@sql_quote_show_create = 1/*!40101, @@sql_mode='no_auto_value_on_zero,only_full_group_by,strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_auto_create_user,no_engine_substitution'*/ 51 query select @@server_id /*!50038 , @@hostname*/ 51 query select @@sql_mode 51 query set sql_mode=',no_auto_value_on_zero,strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_auto_create_user,no_engine_substitution' 51 query show variables like 'version%' 51 query show engines 51 query show variables like 'innodb_version' -- 设置会话级binlog row格式为statement 51 query select @@binlog_format 51 query /*!50108 set @@binlog_format := 'statement'*/ -- 设置会话级隔离级别为rr(repeatable read) 51 query set session transaction isolation level repeatable read 51 query show /*!40103 global*/ variables 51 query select version() 51 query show engines 51 query show variables like 'wsrep_on' 52 connect admin@dbabd1 on percona using tcp/ip 52 query show variables like 'innodb\_lock_wait_timeout' 52 query set session innodb_lock_wait_timeout=1 52 query show variables like 'wait\_timeout' 52 query set session wait_timeout=10000 52 query select @@sql_mode 52 query set @@sql_quote_show_create = 1/*!40101, @@sql_mode='no_auto_value_on_zero,only_full_group_by,strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_auto_create_user,no_engine_substitution'*/ 52 query select @@server_id /*!50038 , @@hostname*/ 52 query show variables like 'wsrep_on' 52 query select dsn from `percona`.`dsns` order by id 52 quit 51 query show variables like 'wsrep_on' 51 query select @@server_id 51 query show variables like 'wsrep_on' 51 query select @@server_id -- 创建存储校验结果表percona.checksums 51 query show databases like 'percona' 51 query create database if not exists `percona` /* pt-table-checksum */ 51 query use `percona` 51 query show tables from `percona` like 'checksums' 51 query create table if not exists `percona`.`checksums` ( db char(64) not null, tbl char(64) not null, chunk int not null, chunk_time float null, chunk_index varchar(200) null, lower_boundary text null, upper_boundary text null, this_crc char(40) not null, this_cnt int not null, master_crc char(40) null, master_cnt int null, ts timestamp not null default current_timestamp on update current_timestamp, primary key (db, tbl, chunk), index ts_db_tbl (ts, db, tbl) ) engine=innodb default charset=utf8 -- 检查数据库服务器运行状态 51 query show global status like 'threads_running' 51 query select concat(@@hostname, @@port) 51 query select crc32('test-string') 51 query select crc32('a') 51 query select crc32('a') 51 query show variables like 'wsrep_on' 51 query show databases 51 query show /*!50002 full*/ tables from `employees` 51 query /*!40101 set @old_sql_mode := @@sql_mode, @@sql_mode := '', @old_quote := @@sql_quote_show_create, @@sql_quote_show_create := 1 */ -- 开始对表employees_ptchksum进行分析 51 query use `employees` 51 query show create table `employees`.`employees_ptchksum` 51 query /*!40101 set @@sql_mode := @old_sql_mode, @@sql_quote_show_create := @old_quote */ -- 获取表信息,通过主键或唯一索引,获取校验第一个chunk下边界起点,这里为emp_no = 10001 51 query explain select * from `employees`.`employees_ptchksum` where 1=1 51 query select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) order by `emp_no` limit 1 /*first lower boundary*/ -- 通过索引获取校验表行数 51 query select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index (`primary`) where `emp_no` is not null order by `emp_no` limit 1 /*key_len*/ 51 query explain select /*!40001 sql_no_cache */ * from `employees`.`employees_ptchksum` force index (`primary`) where `emp_no` >= '10001' /*key_len*/ -- 清除表percona.checksums中有关employees_ptchksum表的校验结果信息 51 query use `percona` 51 query delete from `percona`.`checksums` where db = 'employees' and tbl = 'employees_ptchksum' -- 确定每个chunk包含的行数,首个块默认为1000行,可以根据系统状态调整,调整每个块校验完成默认时间为0.5s 51 query use `employees` 51 query explain select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '10001')) order by `emp_no` limit 999, 2 /*next chunk boundary*/ 51 query select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '10001')) order by `emp_no` limit 999, 2 /*next chunk boundary*/ -- 确定本次chunk校验查询的执行计划,并通过replace into方式写入校验结果表 51 query explain select count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '10001')) and ((`emp_no` <= '11000')) /*explain checksum chunk*/ 51 query replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select 'employees', 'employees_ptchksum', '1', 'primary', '10001', '11000', count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '10001')) and ((`emp_no` <= '11000')) /*checksum chunk*/ -- 再次查看校验chunk的行数和校验结果,并更新校验结果表 51 query show warnings 51 query select this_crc, this_cnt from `percona`.`checksums` where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '1' 51 query update `percona`.`checksums` set chunk_time = '0.007819', master_crc = '4f6eb3dc', master_cnt = '1000' where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '1' -- 查看数据库服务器状态,并进行下一个chunk的检查校验 51 query show global status like 'threads_running' 51 query explain select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '11001')) order by `emp_no` limit 63946, 2 /*next chunk boundary*/ 51 query select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '11001')) order by `emp_no` limit 63946, 2 /*next chunk boundary*/ 51 query explain select count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '11001')) and ((`emp_no` <= '74947')) /*explain checksum chunk*/ 51 query replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select 'employees', 'employees_ptchksum', '2', 'primary', '11001', '74947', count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '11001')) and ((`emp_no` <= '74947')) /*checksum chunk*/ 51 query show warnings 51 query select this_crc, this_cnt from `percona`.`checksums` where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '2' 51 query update `percona`.`checksums` set chunk_time = '0.148209', master_crc = '48c0faee', master_cnt = '63947' where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '2' ……省略…… 51 query show global status like 'threads_running' 51 query explain select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '474878')) order by `emp_no` limit 291764, 2 /*next chunk boundary*/ 51 query select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '474878')) order by `emp_no` limit 291764, 2 /*next chunk boundary*/ 51 query select /*!40001 sql_no_cache */ `emp_no` from `employees`.`employees_ptchksum` force index(`primary`) order by `emp_no` desc limit 1 /*last upper boundary*/ 51 query explain select count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '474878')) and ((`emp_no` <= '499999')) /*explain checksum chunk*/ 51 query replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select 'employees', 'employees_ptchksum', '4', 'primary', '474878', '499999', count(*) as cnt, coalesce(lower(conv(bit_xor(cast(crc32(concat_ws('#', `emp_no`, `birth_date`, convert(`first_name` using utf8mb4), convert(`last_name` using utf8mb4), convert(`gender` using utf8mb4), `hire_date`)) as unsigned)), 10, 16)), 0) as crc from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` >= '474878')) and ((`emp_no` <= '499999')) /*checksum chunk*/ 51 query show warnings 51 query select this_crc, this_cnt from `percona`.`checksums` where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '4' 51 query update `percona`.`checksums` set chunk_time = '0.036433', master_crc = '6ca4b1c9', master_cnt = '25122' where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '4' -- 上述校验到chunk = 4其实已经包含整张表的数据,以下的chunk范围为emp_no < 10001和emp_no > 4999999,这样做的意图很明显,因为工具并不能确认从库在这两个chunk所对应的数据范围内没有数据存在,为了保证检查数据的完整性,所以进行这样的检查操作,包括了所有的可能性。 '对应emp_no < 10001' 51 query show global status like 'threads_running' 51 query explain select count(*), '0' from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` < '10001')) order by `emp_no` /*explain past lower chunk*/ 51 query replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select 'employees', 'employees_ptchksum', '5', 'primary', null, '10001', count(*), '0' from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` < '10001')) order by `emp_no` /*past lower chunk*/ 51 query show warnings 51 query select this_crc, this_cnt from `percona`.`checksums` where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '5' 51 query update `percona`.`checksums` set chunk_time = '0.062096', master_crc = '0', master_cnt = '0' where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '5' '对应emp_no > 499999' 51 query show global status like 'threads_running' 51 query explain select count(*), '0' from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` > '499999')) order by `emp_no` /*explain past upper chunk*/ 51 query replace into `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) select 'employees', 'employees_ptchksum', '6', 'primary', '499999', null, count(*), '0' from `employees`.`employees_ptchksum` force index(`primary`) where ((`emp_no` > '499999')) order by `emp_no` /*past upper chunk*/ 51 query show warnings 51 query select this_crc, this_cnt from `percona`.`checksums` where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '6' 51 query update `percona`.`checksums` set chunk_time = '0.002064', master_crc = '0', master_cnt = '0' where db = 'employees' and tbl = 'employees_ptchksum' and chunk = '6' 51 query show global status like 'threads_running' 51 query show master status 51 quit
general log
- 连接主库和从库,查询当前数据库服务器信息,包括参数设置,负载信息等;
- 根据工具选项设置会话级别参数,设置会话级
binlog row format
为statement;- 根据工具选项创建校验结果表(默认为percona.checksums表),查看当前数据库服务器运行状态;
- 获取校验的数据库和表,逐张顺序进行检查校验;
- 开始分析表,根据表的索引(如有),将表分成多个chunk,每个chunk包含多行,默认为1000,chunk对应的表行数可以根据数据库性能状态动态调整;
- 根据以上分析生成表的校验语句,并检查表结构;
- 开始进行表的校验分析,为了保证一致性,这个阶段会将当前chuck所包含的行加上行锁,并将校验的结果以
replace into
方式存入校验结果表;- 再次查询校验结果表,并更新master_crc、master_cnt的值(主库),如果是从库则是this_crc、this_cnt;
- 根据数据库运行状态调整下一个chunk所包含行数;
- 继续下一个chunk的校验检查,直到表中所有的chunk校验完成;
- 从库运行完校验检查,汇总这张表的结果;
- 循环完成所有需要校验的表直到完成所有的表的校验操作。
- pt-table-checksum是当前mysql主从数据库数据一致性校验比较好的工具,但也会对服务器性能造成影响,尽管影响的范围有限,在进行每个chunk检查校验时会对chunk中涉及的表行加锁,所以,检验还是尽量在业务低峰期进行操作;
- pt-table-checksum工具无法对主从表结构不一致的表进行校验;
- 校验结果只能看出哪些表出现不一致性,并无法得出具体出现多少行数据不一致,哪些数据行不一致等。
