zookeeper一二三
1.zookeeper介绍
zookeeper 是一个开源的分布式协调服务,由雅虎创建,是 google chubby 的开源实现。分布式应用程序可以基于 zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、master 选举、配置维护,名字服务、分布式同步、分布式锁和分布式队列等功能。
数据模型:zookeeper 允许分布式进程通过共享的层次结构命名空间进行相互协调,这与标准文件系统类似。名称空间由 zookeeper 中的数据寄存器组成,称为 znode,这些类似于文件和目录。与典型文件系统不同,zookeeper 数据保存在内存中,这意味着 zookeeper 可以实现高吞吐量和低延迟。
顺序访问:对于来自客户端的每个更新请求,zookeeper 都会分配一个全局唯一的递增编号。这个编号反应了所有事务操作的先后顺序,应用程序可以使用 zookeeper 这个特性来实现更高层次的同步原语。这个编号也叫做时间戳—zxid(zookeeper transaction id)。
可构建集群:为了保证高可用,最好是以集群形态来部署 zookeeper,这样只要集群中大部分机器是可用的(能够容忍一定的机器故障),那么 zookeeper 本身仍然是可用的。客户端在使用 zookeeper 时,需要知道集群机器列表,通过与集群中的某一台机器建立 tcp 连接来使用服务。客户端使用这个 tcp 链接来发送请求、获取结果、获取监听事件以及发送心跳包。如果这个连接异常断开了,客户端可以连接到另外的机器上。
上图中每一个 server 代表一个安装 zookeeper 服务的服务器。组成 zookeeper 服务的服务器都会在内存中维护当前的服务器状态,并且每台服务器之间都互相保持着通信。集群间通过 zab 协议(zookeeper atomic broadcast)来保持数据的一致性。zookeeper服务器有三种角色:leader、follower、observer,集群中的所有机器通过一个 leader 选举过程来选定一台称为 “leader” 的机器。leader 既可以为客户端提供写服务又能提供读服务。除了 leader 外,follower 和 observer 都只能提供读服务。follower 和 observer 唯一的区别在于 observer 机器不参与 leader 的选举过程,也不参与写操作的“过半写成功”策略,因此 observer 机器可以在不影响写性能的情况下提升集群的读性能。在 zookeeper 中,主要依赖 zab 协议来实现分布式数据一致性,基于该协议,zookeeper 实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性。
工作原理:zookeeper的核心是原子广播,这个机制保证了各个server之间的同步。实现这个机制的协议叫做zab协议。zab协议有两种模式,它们分别是恢复模式和广播模式。当服务启动或者在领导者崩溃后,zab就进入了恢复模式,当领导者被选举出来,且大多数server的完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和server具有相同的系统状态。一旦leader已经和多数的follower进行了状态同步后,他就可以开始广播消息了,即进入广播状态。这时候当一个server加入zookeeper服务中,它会在恢复模式下启动,发现leader,并和leader进行状态同步。待到同步结束,它也参与消息广播。zookeeper服务一直维持在broadcast状态,直到leader崩溃了或者leader失去了大部分的followers支持。
leader选举:广播模式需要保证proposal(提议)被按顺序处理(leader来执行写操作),因此zk采用了递增的事务id号(zxid)来保证。所有的提议都在被提出的时候加上了zxid。实现中zxid是一个64为的数字,它高32位是epoch用来标识leader关系是否改变,每次一个leader被选出来,它都会有一个新的epoch。低32位是个递增计数。当leader崩溃或者leader失去大多数的follower,这时候zk进入恢复模式,恢复模式需要重新选举出一个新的leader,让所有的server都恢复到一个正确的状态。每个server启动以后都询问其它的server它要投票给谁。对于其他server的询问,server每次根据自己的状态都回复自己推荐的leader的id和上一次处理事务的zxid(系统启动时每个server都会推荐自己),收到所有server回复以后,就计算出zxid最大的哪个server,并将这个server相关信息设置成下一次要投票的server。计算这过程中获得票数最多的的sever为获胜者,如果获胜者的票数超过半数,则改server被选为leader。否则,继续这个过程,直到leader被选举出来。
数据一致性算法:paxos,请参考zookeeper全解析——paxos作为灵魂
2.使用zookeeper
1 //客户端连接zookeeper服务器 2 zookeeper zkclient = new zookeeper(connect_str, 50000, new watcher() { 3 @override 4 public void process(watchedevent watchedevent) { 5 //监控服务节点变化 6 system.out.println("sssss"); 7 } 8 }); 9 10 //获取根节点下的所有节点 11 list<string> nodelist= zkclient.getchildren("/",null); 12 13 system.out.println(nodelist.tostring()); 14 15 //stat isexists= zkclient.exists(lock_root_path,null); 16 //在test父节点下创建子节点 17 string lockpath = zkclient.create("/test/why","why".getbytes(), zoodefs.ids.open_acl_unsafe,createmode.ephemeral_sequential);
代码中需要注意的是如果父节点不存在,会报异常,同时父节点不能是临时节点。
znode:在 zookeeper 中,“节点"分为两类,第一类同样是指构成集群的机器,我们称之为机器节点,第二类则是指数据模型中的数据单元,我们称之为数据节点一znode。zookeeper 将所有数据存储在内存中,数据模型是一棵树(znode tree),由斜杠(/)的进行分割的路径,就是一个 znode,例如/foo/path1。每个上都会保存自己的数据内容,同时还会保存一系列属性信息。zookeeper有四类节点:persistent(持久的)、ephemeral(暂时的)、persistent_sequential(持久化顺序编号目录节点)、ephemeral_sequential(暂时化顺序编号目录节点)
session:session 指的是 zookeeper 服务器与客户端会话。在 zookeeper 中,一个客户端连接是指客户端和服务器之间的一个 tcp 长连接。客户端启动的时候,首先会与服务器建立一个 tcp 连接,从第一次连接建立开始,客户端会话的生命周期也开始了。通过这个连接,客户端能够通过心跳检测与服务器保持有效的会话,也能够向 zookeeper 服务器发送请求并接受响应,同时还能够通过该连接接收来自服务器的 watch 事件通知。session 的 sessiontimeout 值用来设置一个客户端会话的超时时间。当由于服务器压力太大、网络故障或是客户端主动断开连接等各种原因导致客户端连接断开时,只要在 sessiontimeout 规定的时间内能够重新连接上集群中任意一台服务器,那么之前创建的会话仍然有效。在为客户端创建会话之前,服务端首先会为每个客户端都分配一个 sessionid。由于 sessionid 是 zookeeper 会话的一个重要标识,许多与会话相关的运行机制都是基于这个 sessionid 的。因此,无论是哪台服务器为客户端分配的 sessionid,都务必保证全局唯一。
watcher:是 zookeeper 中的一个很重要的特性。zookeeper 允许用户在指定节点上注册一些 watcher,并且在一些特定事件触发的时候,zookeeper 服务端会将事件通知到感兴趣的客户端上去,该机制是 zookeeper 实现分布式协调服务的重要特性。
version: zookeeper 的每个 znode 上都会存储数据,对应于每个 znode,zookeeper 都会为其维护一个叫作 stat 的数据结构。stat 中记录了这个 znode 的三个数据版本,分别是:version(当前节点版本)、cversion(当前节点的子节点版本)、aversion(当前节点的acl版本)
acl:zookeeper 采用 acl(accesscontrollists)策略来进行权限控制,类似于 unix 文件系统的权限控制。zookeeper 定义了 5 种权限:create/read/write/delete/admin
3.通过zookeeper实现分布式锁
1 package com.why; 2 3 import org.apache.zookeeper.*; 4 import org.apache.zookeeper.data.stat; 5 6 import java.io.ioexception; 7 import java.util.collections; 8 import java.util.list; 9 10 /* 11 * 分布式锁 12 * */ 13 public class distributelock { 14 15 private static final string lock_root_path = "/test"; 16 //private static final string lock_node_name = "lock"; 17 18 private static zookeeper _zkclient; 19 20 static { 21 try { 22 _zkclient = new zookeeper("192.168.6.132:2181", 500000, null); 23 } catch (ioexception e) { 24 e.printstacktrace(); 25 } 26 } 27 28 29 public static string getlock() { 30 try { 31 32 //system.out.println(_zkclient.getchildren("/",false)); 33 34 string lockpath = _zkclient.create( "/test/why", null, zoodefs.ids.open_acl_unsafe, createmode.ephemeral_sequential); 35 //system.out.println(lockpath); 36 //system.out.println(_zkclient.getchildren(lock_root_path,false)); 37 if (trylock(lockpath)) 38 return lockpath; 39 else 40 return null; 41 } catch (exception ex) { 42 ex.printstacktrace(); 43 return null; 44 } 45 } 46 47 private static boolean trylock(string lockpath) throws keeperexception, interruptedexception { 48 list<string> lockpaths = _zkclient.getchildren(lock_root_path, false); 49 collections.sort(lockpaths); 50 int index=lockpaths.indexof(lockpath.substring(lock_root_path.length()+1)); 51 if(index==0){ 52 //获得锁 53 return true; 54 } 55 else{ 56 string prelockpath="/"+lockpaths.get(index-1); 57 58 watcher watcher=new watcher() { 59 @override 60 public void process(watchedevent watchedevent) { 61 synchronized (this){ 62 //唤醒线程 63 notifyall(); 64 } 65 } 66 }; 67 68 stat stat=_zkclient.exists(prelockpath,watcher); 69 70 if(stat==null){ 71 return trylock(lockpath); 72 }else{ 73 synchronized (watcher){ 74 watcher.wait(); 75 } 76 return trylock(lockpath); 77 } 78 79 } 80 81 } 82 83 public static void closezkclient() throws interruptedexception { 84 _zkclient.close(); 85 } 86 87 public static void releaselock(string lockpath) throws keeperexception, interruptedexception { 88 _zkclient.delete(lockpath,-1); 89 } 90 }
测试:
package com.why; import org.apache.zookeeper.keeperexception; import org.apache.zookeeper.zookeeper; import java.io.ioexception; import java.util.concurrent.executorservice; import java.util.concurrent.executors; public class multithreaddemo { private static int counter = 0; public static void plus() throws interruptedexception { thread.sleep(500); counter++; //system.out.println(counter); } public static int count(){ return counter; } public static void main(string[] args) throws ioexception, keeperexception, interruptedexception { executorservice executor= executors.newcachedthreadpool(); final int num=10; for(int i=0;i<num;i++){ executor.submit(new runnable() { @override public void run() { try { string path = distributelock.getlock(); system.out.println(path); plus(); distributelock.releaselock(path); system.out.println(count()); } catch (interruptedexception | keeperexception e) { e.printstacktrace(); } } }); } executor.shutdown(); } }