Fabric 源码学习:如何实现批量管理远程服务器?
前不久,我写了一篇《fabric教程》,简单来说,它是一个用 python 开发的轻量级的远程系统管理工具,在远程登录服务器、执行 shell 命令、批量管理服务器、远程部署等场景中,十分好用。
fabric 2 是其最新的大版本,跟早前的 fabric 1 有挺大的不同,更加好用了,但是没填上的坑也挺多的……
本文继续来聊聊 fabric,不过我不想再面面俱到了,而是专注于这一个话题:它是如何实现对批量服务器的串行/并发管理的?
(友情提示:为了有更好的阅读体验,如果你还不了解 fabric 的基础用法,建议先阅读前面的教程。)
fabric 通过 group 来组合多台服务器。区别在于由 fabric.group.group 基类(父类)派生出的两个子类:
- serialgroup(*hosts, **kwargs):按串行方式执行操作
- threadinggroup(*hosts, **kwargs):按并发方式执行操作
下面先看看这个基类:
我把一些没用的信息折叠了,比较值得注意的内容有:
- group 继承了 list,所以能够 extend() ,对传入的服务器分别建立 connection
- 核心的 run() 方法没有写实现,用意是留给子类再实现
- 最后的 __enter__() 和 __exit__() 实现了上下文管理器
有了这个基类,接下来就要看 serialgroup 和 threadinggroup 的具体实现了。
serialgroup 类很简单,只实现了一个 run() 方法。因为类在初始化时为所有 host 建立了连接而且存了起来,所以这里只需用 for 循环依次取出,再执行 connection 的 run() 方法。
这里可以看到一种非常实用的开发技巧: 创建类时,让它继承内置的数据结构(如 list、dict), 这样可以直接使用 self.append()、self.extend()、self.update() 等方法把关键的信息存到“自身”,再到取出时则“for xxx in self”,这样就免了创建临时的 list 或 dict,也免得要在参数中传来传去。
groupresult 和 groupexception 是对执行结果和异常的处理,不是我们关注的重点,这里略过。
接下来看看 threadinggroup,它也只有一个 run() 方法:
exceptionhandlingthread 是一个继承了 threading.thread 的类,这是一种创建多线程的方式。每个线程执行的方法主要做两件事:执行 connection 的 run() 方法,以及将执行成功的结果存入队列中。
接下来再分别把执行成功的结果与出异常的结果都存入到 results 中。
所以,fabric 是使用了 threading 多线程的方式来实现并发。网络请求是 io 密集型的,使用多线程是不错的方式。
至此,对于我们在开头提的问题,就有了一个初步的答案:fabric 封装了两种 group 来批量管理服务器,其中串行方式就是用了简单的 for 循环,而并发方式使用了 threading 多线程方式。
但是,通过分析这两种 group 的实现代码(以及使用的实践),我们也可以发现 fabric 的缺陷:
- group 只实现了 run() 方法,但是 connection 的 put()、get()、sudo() 等方法都没有,这意味着用这种方式管理服务器集群时,只能在上面执行 shell 命令……
- 每次调用 run() 方法时,它要等所有主机都执行完,才会返回结果,这意味着先执行完的主机会被阻塞。更为致命的是,如果其中一台主机执行时出了异常,整个 run() 方法就抛异常,这意味着每次使用 run() 方法时,都需要作异常捕获
- run() 方法支持执行单条 shell 命令,但是命令的状态不会传递。假设先在一个 run() 方法中运行 cd 命令切到 a 目录(非根目录),再在下一个 run() 方法创建一个文件,最终结果是该文件并不在 a 目录,而是在默认目录。解决办法是用“&&”连接起多条命令,略显麻烦
这几个问题在 fabric 的 github issue 中,被不同的人反复提出,但是还没有得到很好的回应……
言归正传,本文主要分析了 fabric 在批量管理服务器时的实现方案,阅读其源码,可以了解到串行/并发典型场景的用法,以及类定义、类继承、多线程、异常处理等内容,最后,我们还揭示出了它的几个特性缺陷。
感谢阅读。最后,附上 fabric 教程:https://mp.weixin.qq.com/s/uhtpaxo2ojql5ps4htn3vg