欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Redis入门到放弃系列-redis cluster集群原理

程序员文章站 2022-06-17 20:07:37
Redis Cluster Redis Cluster是redis的分布式解决方案,在redis 3.0版本推出后有效的解决了reids分布式方面的需求。Redis Cluster的主要特性有: 数据进行分片,在每个master上保存一部分数据 内置高可用支持,部分master不可用时,仍可提供服务 ......

redis cluster

redis cluster是redis的分布式解决方案,在redis 3.0版本推出后有效的解决了reids分布式方面的需求。redis cluster的主要特性有:

  • 数据进行分片,在每个master上保存一部分数据
  • 内置高可用支持,部分master不可用时,仍可提供服务
  • 支持n个master节点,每个master node可以挂载多个slave node
  • 支持自动选举机制,在master node故障时,会从slave node中选举出新的master,并进行切换
  • 每个master节点都负责进行数据读写操作,每个节点之间会进行通信

redis cluster的虚拟槽分区(hash slot)

虚拟槽分区是redis cluster采用的分区方式。

  • redis cluster为我们预设了16384个hash slot(范围0-16383),每一个hash slot映射一个数据子集。
  • 数据子集中的key通过计算crc16的值,然后对16384取模,来确认对应的hash slot。
  • 每个master管理一部分slot,根据master节点的数据平均分配。
  • 由于数据保存在slot中,当节点扩容或缩容时,对slot进行重新分配迁移即可,数据不会丢失。
  • 分配迁移slot的成本是非常低的(slot的总数只有16384个)
  • redis cluster的节点之间会共享消息,每个节点都会知道是哪个节点负责哪个范围内的slot

节点间的内部通信机制

基础通信原理

  1. redis cluster节点间采取gossip协议进行通信

跟集中式不同,不是将集群元数据(节点信息,故障,等等)集中存储在某个节点上,
而是互相之间不断通信,保持整个集群所有节点的数据是完整的

  • 集中式:好处在于,元数据的更新和读取,时效性非常好,一旦元数据出现了变更,
    立即就更新到集中式的存储中,其他节点读取的时候立即就可以感知到;
    不好在于,所有的元数据的更新压力全部集中在一个地方,可能会导致元数据的存储有压力
  • gossip:好处在于,元数据的更新比较分散,不是集中在一个地方,更新请求会陆陆续续,
    打到所有节点上去更新,有一定的延时,降低了压力; 缺点,元数据更新有延时,可能导致集群的一些操作会有一些滞后
  1. 10000端口
  • 每个节点都有一个专门用于节点间通信的端口,就是自己提供服务的端口号+10000,比如7001,那么用于节点间通信的就是17001端口
  • 每个节点每隔一段时间都会往另外几个节点发送ping消息,同时其他几点接收到ping之后返回pong
  1. 交换的信息

故障信息,节点的增加和移除,hash slot信息,等

gossip协议

gossip协议包含多种消息,包括ping,pong,meet,fail

  • meet: 某个节点发送meet给新加入的节点,让新节点加入集群中,然后新节点就会开始与其他节点进行通信
    redis-trib.rb add-node
    其实内部就是发送了一个gossip meet消息,给新加入的节点,通知那个节点去加入我们的集群
  • ping: 每个节点都会频繁给其他节点发送ping,其中包含自己的状态还有自己维护的集群元数据,互相通过ping交换元数据
    每个节点每秒都会频繁发送ping给其他的集群,ping,频繁的互相之间交换数据,互相进行元数据的更新
  • pong: 返回ping和meet,包含自己的状态和其他信息,也可以用于信息广播和更新
  • fail: 某个节点判断另一个节点fail之后,就发送fail给其他节点,通知其他节点,指定的节点宕机了

ping消息

  • ping很频繁,而且要携带一些元数据,所以可能会加重网络负担
    每个节点每秒会执行10次ping,每次会选择5个最久没有通信的其他节点
  • 当然如果发现某个节点通信延时达到了cluster_node_timeout / 2,那么立即发送ping,避免数据交换延时过长,落后的时间太长了
  • 比如说,两个节点之间都10分钟没有交换数据了,那么整个集群处于严重的元数据不一致的情况,就会有问题
    所以cluster_node_timeout可以调节,如果调节比较大,那么会降低发送的频率
  • 每次ping,一个是带上自己节点的信息,还有就是带上1/10其他节点的信息,发送出去,进行数据交换
    至少包含3个其他节点的信息,最多包含总节点-2个其他节点的信息

消息头

ping和pong数据包包含所有类型的数据包(例如,请求故障转移投票的数据包)通用的消息头。
通用消息头具有以下信息:

  • 节点id,在第一次创建节点时分配的160位伪随机字符串,在redis cluster节点的整个生命周期中都保持不变
  • 节点标志,指示该节点是从节点,主节点还是其他节点信息
  • 发送节点的哈希槽的位图
  • 发送节点的tcp端口
  • 发送节点的状态
  • 发送节点的主节点id(如果它是从节点)

客户端路由

moved重定向

  1. 每个节点通过通信都会共享redis cluster中槽和集群中对应节点的关系
  2. 客户端向redis cluster的任意节点发送命令,接收命令的节点会根据crc16规则进行hash运算与16384取模,计算自己的槽和对应节点
  3. 如果保存数据的槽被分配给当前节点,则去槽中执行命令,并把命令执行结果返回给客户端
  4. 如果保存数据的槽不在当前节点的管理范围内,则向客户端返回moved重定向异常
  5. 客户端接收到节点返回的结果,如果是moved异常,则从moved异常中获取目标节点的信息
  6. 客户端向目标节点发送命令,获取命令执行结果

ask重定向

什么是ask重定向?
在对集群进行扩容和缩容时,需要对槽及槽中数据进行迁移
当客户端向某个节点发送命令,节点向客户端返回moved异常,告诉客户端数据对应的槽的节点信息
如果此时正在进行集群扩展或者缩容操作,当客户端向正在迁移的节点发送命令时,要操作的数据已经被迁移到别的节点了,就会返回ask,这就是ask重定向机制
步骤:

  1. 客户端向目标节点发送命令,目标节点中的槽正在迁移中,此时目标节点会返回ask重定向给客户端
  2. 客户端接收到ask后,向新的节点发起重定向操作,通过发送asking命令的方式来操作。
  3. 新节点执行命令,把命令执行结果返回给客户端
  4. 客户端接收ask重向后,并不会更新本地映射表(槽和集群中节点的对应关系)

多key操作(hash tags)

在redis cluster中,每个key对应的hash slot都各不相同,数据保存的节点也不尽相同。那么如何做到多个key的批量操作呢?
hash tags就是用来解决这个问题的,使用hash tags可以确保多个key映射到同一个hash slot中。
redis cluster中为了实现hash tags做了些特殊计算。
如果一个键包含一个 “{…}” 这样的模式,只有 { 和 } 之间的字符串会被用来做哈希以获取哈希槽
但是由于可能出现多个 { 或 },算的算法如下:

  • 如果键包含一个 { 字符。
  • 那么在 { 的右边就会有一个 }。
  • 在 { 和 } 之间会有一个或多个字符,第一个 } 一定是出现在第一个 { 之后。
    例如:
  1. abc{hello} yhn{hello}
  2. {abc}}hello {abc}}nihao

多key操作:
mset {user:1000}.name angela {user:1000}.surname white

参考资料: