ZooKeeper 一致性协议 ZAB 原理
一致性协议有很多种,比如 paxos,raft,2pc,3pc等等,今天我们讲一种协议,zab 协议,该协议应该是所有一致性协议中生产环境中应用最多的了。为什么呢?因为他是为 zookeeper 设计的分布式一致性协议!
1. 什么是 zab 协议? zab 协议介绍
1、zab 协议全称:zookeeper atomic broadcast(zookeeper 原子广播协议)。
2、zookeeper 是一个为分布式应用提供高效且可靠的分布式协调服务。在解决分布式一致性方面,zookeeper 并没有使用 paxos ,而是采用了 zab 协议。
3、zab 协议定义:zab 协议是为分布式协调服务 zookeeper 专门设计的一种支持 崩溃恢复 和 原子广播 协议。下面我们会重点讲这两个东西。
4、基于该协议,zookeeper 实现了一种 主备模式 的系统架构来保持集群中各个副本之间 数据一致性。具体如下图所示:
上图显示了 zookeeper 如何处理集群中的数据。所有客户端写入数据都是写入到 主进程(称为 leader)中,然后,由 leader 复制到备份进程(称为 follower)中。从而保证数据一致性。从设计上看,和 raft 类似。
那么复制过程又是如何的呢?
复制过程类似 2pc,zab 只需要 follower 有一半以上返回 ack 信息就可以执行提交,大大减小了同步阻塞。也提高了可用性。
简单介绍完,开始重点介绍 消息广播 和 崩溃恢复。整个 zookeeper 就是在这两个模式之间切换。 简而言之,当 leader 服务可以正常使用,就进入消息广播模式,当 leader 不可用时,则进入崩溃恢复模式。
2. 消息广播
zab 协议的消息广播过程使用的是一个原子广播协议,类似一个 二阶段提交过程。对于客户端发送的写请求,全部由 leader 接收,leader 将请求封装成一个事务 proposal,将其发送给所有 follwer ,然后,根据所有 follwer 的反馈,如果超过半数成功响应,则执行 commit 操作(先提交自己,再发送 commit 给所有 follwer)。
基本上,整个广播流程分为 3 步骤:
1、将数据都复制到 follwer 中
2、等待 follwer 回应 ack,最低超过半数即成功
3、当超过半数成功回应,则执行 commit ,同时提交自己
通过以上 3 个步骤,就能够保持集群之间数据的一致性。实际上,在 leader 和 follwer 之间还有一个消息队列,用来解耦他们之间的耦合,避免同步,实现异步解耦。
还有一些细节:
1、leader 在收到客户端请求之后,会将这个请求封装成一个事务,并给这个事务分配一个全局递增的唯一 id,称为事务id(zxid),zab 兮协议需要保证事务的顺序,因此必须将每一个事务按照 zxid 进行先后排序然后处理。
2、在 leader 和 follwer 之间还有一个消息队列,用来解耦他们之间的耦合,解除同步阻塞。
3、zookeeper集群中为保证任何所有进程能够有序的顺序执行,只能是 leader 服务器接受写请求,即使是 follower 服务器接受到客户端的请求,也会转发到 leader 服务器进行处理。
4、实际上,这是一种简化版本的 2pc,不能解决单点问题。等会我们会讲述 zab 如何解决单点问题(即 leader 崩溃问题)。
3. 崩溃恢复
刚刚我们说消息广播过程中,leader 崩溃怎么办?还能保证数据一致吗?如果 leader 先本地提交了,然后 commit 请求没有发送出去,怎么办?
实际上,当 leader 崩溃,即进入我们开头所说的崩溃恢复模式(崩溃即:leader 失去与过半 follwer 的联系)。下面来详细讲述。
假设1:leader 在复制数据给所有 follwer 之后崩溃,怎么办?
假设2:leader 在收到 ack 并提交了自己,同时发送了部分 commit 出去之后崩溃怎么办?
针对这些问题,zab 定义了 2 个原则:
1、zab 协议确保那些已经在 leader 提交的事务最终会被所有服务器提交。
2、zab 协议确保丢弃那些只在 leader 提出/复制,但没有提交的事务。
所以,zab 设计了下面这样一个选举算法:能够确保提交已经被 leader 提交的事务,同时丢弃已经被跳过的事务。
针对这个要求,如果让 leader 选举算法能够保证新选举出来的 leader 服务器拥有集群总所有机器编号(即 zxid 最大)的事务,那么就能够保证这个新选举出来的 leader 一定具有所有已经提交的提案。
而且这么做有一个好处是:可以省去 leader 服务器检查事务的提交和丢弃工作的这一步操作。
这样,我们刚刚假设的两个问题便能够解决。假设 1 最终会丢弃调用没有提交的数据,假设 2 最终会同步所有服务器的数据。这个时候,就引出了一个问题,如何同步?
4. 数据同步
当崩溃恢复之后,需要在正式工作之前(接收客户端请求),leader 服务器首先确认事务是否都已经被过半的 follwer 提交了,即是否完成了数据同步。目的是为了保持数据一致。
当所有的 follwer 服务器都成功同步之后,leader 会将这些服务器加入到可用服务器列表中。
实际上,leader 服务器处理或丢弃事务都是依赖着 zxid 的,那么这个 zxid 如何生成呢?
答:在 zab 协议的事务编号 zxid 设计中,zxid 是一个 64 位的数字,其中低 32 位可以看作是一个简单的递增的计数器,针对客户端的每一个事务请求,leader 都会产生一个新的事务 proposal 并对该计数器进行 + 1 操作。
而高 32 位则代表了 leader 服务器上取出本地日志中最大事务 proposal 的 zxid,并从该 zxid 中解析出对应的 epoch 值,然后再对这个值加一。
高 32 位代表了每代 leader 的唯一性,低 32 代表了每代 leader 中事务的唯一性。同时,也能让 follwer 通过高 32 位识别不同的 leader。简化了数据恢复流程。
基于这样的策略:当 follower 链接上 leader 之后,leader 服务器会根据自己服务器上最后被提交的 zxid 和 follower 上的 zxid 进行比对,比对结果要么回滚,要么和 leader 同步。
5. 总结
到了总结的时刻了。
zab 协议和我们之前看的 raft 协议实际上是有相似之处的,比如都有一个 leader,用来保证一致性(paxos 并没有使用 leader 机制保证一致性)。再有采取过半即成功的机制保证服务可用(实际上 paxos 和 raft 都是这么做的)。
zab 让整个 zookeeper 集群在两个模式之间转换,消息广播和崩溃恢复,消息广播可以说是一个简化版本的 2pc,通过崩溃恢复解决了 2pc 的单点问题,通过队列解决了 2pc 的同步阻塞问题。
而支持崩溃恢复后数据准确性的就是数据同步了,数据同步基于事务的 zxid 的唯一性来保证。通过 + 1 操作可以辨别事务的先后顺序。
好了,关于 zab 协议就介绍到这里,篇幅有限,难免疏漏。