Docker探索namespace详解

程序员文章站 2022-04-06 09:37:30

docker通过namespace实现了资源隔离，通过cgroups实现了资源限制,通过写时复制(copy-on-write)实现了高效的文件操作。 1.namesp...

docker通过namespace实现了资源隔离，通过cgroups实现了资源限制,通过写时复制(copy-on-write)实现了高效的文件操作。

1.namespace资源隔离

namepsace的6项隔离:

namespace	系统调用参数	隔离内容
uts	clone_newuts	主机名与域名
ipc	clone_newipc	信号量，消息队列和共享内存
pid	clone_newpid	进程编号
network	clone_newnet	网络设备，网络栈，端口等
mount	clone_newns	挂载点（文件系统）
user	clone_newuser	用户和用户组

linux内核实现namespace的主要目的之一是实现轻量级虚拟化（容器）服务。在同一个namespace下的进程可以感知彼此的变化，而对外界进程一无所知。这样就可以让容器中的进程产生错觉，仿佛自己置身于一个独立的系统环境中，以达到独立和隔离的目的。

进行namespace api操作的4种方式

namespace的api包括clone(),setns()以及unshare(),还有/proc下的部分文件。为了确定隔离的到底是哪6项namespace,在使用这些api时，通常需要指定以下6个参数的一个或多个，通过位或操作来实现。

clone_newuts,clone_newipc,clone_newpid,clone_newnet,clone_newns,clone_newuser.

通过clone()在创建新进程的同时创建namespace

使用clone()来创建一个独立namespace的进程是最常见的做法，也是docker使用namespace的最基本的方法,它的调用方式如下。

name 
    clone, __clone2 - create a child process 
synopsis 
    /* prototype for the glibc wrapper function */ 
    #include <sched.h> 
    int clone(int (*fn)(void *), void *child_stack, 
         int flags, void *arg, ... 
         /* pid_t *ptid, struct user_desc *tls, pid_t *ctid */ );

clone()实际上是fork系统调用的一种更通用的实现方式，它可以通过flags来控制使用多少功能。一共有20多种clone_*的flag（标志位）参数用来控制clone进程的方方面面（如是否与父进程共享虚拟内存等）.

查看/proc/[pid]/ns文件

从3.8版本内核开始，用户可以在该文件下看到指向不同namespace号的文件:

 ls -l /proc/2597/ns
total 0
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 cgroup -> cgroup:[4026531835]
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 ipc -> ipc:[4026531839]
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 mnt -> mnt:[4026531840]
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 net -> net:[4026531957]
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 pid -> pid:[4026531836]
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 user -> user:[4026531837]
lrwxrwxrwx 1 zhangxa zhangxa 0 mar 2 06:42 uts -> uts:[4026531838]

如果2个进程namespace号相同，说明它们在同一个namespace下。

/proc/[pid]/ns里设置这些符号链接的另一个作用是，一旦上述链接文件被打开，那么就算该namespace下的所有进程都已经结束，这个namespace也会一直存在，后续进程也可以再加进来。在docker中，通过文件描述符定位和加入一个存在的namespace是最基本的方式。

另外，把/proc/[pid]/ns目录文件使用--bind方式挂载起来可以直到同样的作用:

# mount --bind /proc/2454/ns/uts uts

通过setns()加入一个已经存在的namespace

上面提到，在进程都结束的情况下，也可以通过挂载的形式把namespace保留下来，保留namespace的目的是为以后有进程加入做准备。在docker中，使用docker exec命令在已经运行着的容器中执行一个新命令，就需要用到该方法。通过setns()系统调用，进程从原先的namespace加入某个已经存在的namespace,使用方法如下。通常为了不影响进程的调用者，也为了使新加入的pid namespace生效，会在setns()函数执行后使用clone创建子进程继续执行命令，让原先的进程结束。

name 
    setns - reassociate thread with a namespace 
synopsis 
    #define _gnu_source       /* see feature_test_macros(7) */ 
    #include <sched.h> 
    int setns(int fd, int nstype);

fd = open(argv[1],o_rdonly); 
setns(fd,0); 
execvp(argv[2],&argv[2]);

假设编译后的程序为"setns-test"
# ./setns-test ~/uts /bin/bash

至此，就可以在新加入的namespace中执行shell命令了。

通过unshare()在原先进程上进行namespace隔离

它与clone()很像，不同的是，unshare()运行在原先的进程上，不需要启动一个新进程。

name 
    unshare - disassociate parts of the process execution context 
synopsis 
    #include <sched.h> 
    int unshare(int flags);

调用unshare()的主要作用就是不启动一个新进程就可以起到隔离的效果，相当跳出原先的namespace进行操作。这样，就可以在原进程进行一些需要隔离的操作。linux自带的unshare命令，就是通过unshare()系统调用实现的。docker目前并没有使用这个系统调用。

总结

以上就是本文关于docker探索namespace详解的全部内容，希望对大家有所帮助，感兴趣的朋友可以继续参阅本站：浅谈docker安全机制内核安全与容器之间的网络安全、详解docker使用linux iptables 和 interfaces管理容器网络等，有什么问题可以随时留言，小编会及时回复大家的。感谢朋友们对本站的支持！

上一篇： docker cgroup 资源监控的详解

下一篇： nginx上传文件大小报错500的解决办法

Docker探索namespace详解

详解使用docker搭建kafka环境

docker网络双向连接详解

PHP命名空间(Namespace)的使用详解_php实例

Dom探索之基础详解

详解如何修改 Docker 默认网桥地址

使用docker构建golang线上部署环境的步骤详解

Spring Boot与Docker部署详解

详解Maven Docker镜像使用技巧

详解springboot项目docker部署实践

详解Maven Docker镜像使用技巧