01.GPU云服务器直通方式实现

程序员文章站 2022-05-31 16:04:11

...

1、设备环境

1.1 硬件环境：

• NF5280M5 4路服务器
• NVIDIA Tesla V100

1.2软件环境：

• Ubuntu 16.04.5 LTS (GNU/Linux 4.15.0-36-generic x86_64)
• Openstack Queens版本

2、配置操作系统

2.1 方法及步骤：

（1）BIOS中打开硬件辅助虚拟化功能

VT（VT-x）及VT-d支持，需要将相关支持设置为enable，默认开启

路径：Processor—IIO Configuration—Intel@ VT for Directed I/O(VT-d)

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（2）配置intel_iommu=on

执行命令：sudo vi /etc/default/grub

在GRUB_CMDLINE_LINUX_DEFAULT字段添加 intel_iommu=on iommu=pt rd.driver.pre=vfio-pci

在GRUB_CMDLINE_LINUX字段添加 intel_iommu=on iommu=pt rd.driver.pre=vfio-pci

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（3）修改内核模块文件/etc/modules

修改内核模块文件/etc/modules，里面列出的模块会在系统启动时自动加载。

执行命令：vi /etc/modules
添加以下内容：

pci_stub

vfio

vfio_iommu_type1

vfio_pci

kvm

kvm_intel

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（4）更新grub.cfg文件

执行命令：sudo update-grub 或使用sudo grub-mkconfig -o /boot/grub/grub.cfg

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（5）重启操作系统开启 Intel_iommu=on

（6）检查VT-d（AMD芯片时是 IOV）是否工作

执行命令：dmesg | grep IOMMU 或 dmesg | grep -e DMAR -e IOMMU 检查VT-d（AMD芯片时是 IOV）是否工作。若没有相应输出（IOMMU enabled 必须有），需要重新检查之前的步骤。

（7）添加黑名单

添加黑名单，使卡不被占用。

执行命令：sudo vim /etc/modprobe.d/blacklist.conf

最后添加内容：

#NVIDIA config

blacklist snd_hda_intel

blacklist amd76x_edac

blacklist vga16fb

blacklist nouveau

blacklist rivafb

blacklist nvidiafb

blacklist rivatv

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（8）设置vfio并隔离用于直通的GPU

在/etc/modprobe.d下添加文件vfio.conf

执行命令：

cd /etc/modprobe.d

touch vfio.conf （创建文档）（如果出现touch: cannot touch 'vfio.conf': Permission denied 先执行sudo chmod -R 777 /etc/modprobe.d ）

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

文档内写入内容：options vfio-pci ids=10de:1db6 (其中10de:1db6由9得来)

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（9）查看pci设备信息

使用命令：lspci -nn | grep NVIDIA

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

如果不是NVIDIA的显卡，可以换自己显卡的关键字查询。重查询结果上注意查看自己独立显卡（也就是要直通的显卡）的设备ID和地址，形如： [10de 1b80] 和 [10de 10f0]， 01.00.0和01.00.1。（Gefore显卡一般会集成一个声卡芯片）

其中GPU设备各值含义：

3b:00.0 和 86:00.0 以 ”bus:slot.func“ 格式来唯一标识一个 PCI 设备

0302 设备模式 0300: Graphics -- 代表为图形模式 0302:Compute -- 则表明为计算模式

10de 厂商识别字段（Vendor ID），10de代表此设备来自NVIDIA公司

1db6 标明特定的设备，由厂商来分配

a1 设备的版本识别代码，其值由厂商提供

（10）查看pci设备驱动

执行命令：lspci -vv -s 3b:00.0 | grep driver

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

没有输出说明没有驱动.

如果有输出信息如下：

lspci -vv -s 3b:00.0 | grep driver

>Kernel driver in use: nouveau （ubuntu系统为显卡绑定的默认驱动）

lspci -vv -s 01:00.1 | grep driver

>Kernel driver in user: snd_hda_intel （显卡上附带的集成声卡的默认驱动）

（11）将PCI设备相关驱动解绑

如果（10）中出现执行后有输出，需进行设备解绑

执行命令：（每个卡都要解绑）

echo 0000: 3b:00.0 > /sys/bus/pci/devices/0000\:3b\:00.0/driver/unbind
echo 0000:01:00.1 > /sys/bus/pci/devices/0000\:01\:00.1/driver/unbind

（12）将PCI设备绑定到VFIO

引入VFIO 用户态驱动框架，向用户提供配置IOMMU接口，实现PCI设备在虚拟化场景透传。

解绑设备 (命令执行上面11)，并绑定到VFIO：

加载VFIO执行命令：

sudo modprobe vfio

sudo modprobe vfio-pci

执行完重启系统，重新启动主机并检查GPU是否在不同的IOMMU组中隔离，以及

正在使用vfio驱动程序.

执行命令检查GPU是否在不同的IOMMU组中隔离：

find /sys/kernel/iommu_groups/*/devices/*

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

执行命令进行绑定：

echo 10de 1db6 > /sys/bus/pci/drivers/vfio-pci/new_id

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

查看驱动是否绑定（每个卡都要看一下），执行命令：

lspci -vv -s 3b:00.0 | grep driver

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

如果出现 Kernel driver in use : vfio-pci 说明绑定成功。

3、配置openstack

3.1 方法及步骤：

（1）配置nova-scheduler （controller节点），编辑文件 /etc/nova/nova.conf

[scheduler] 没有修改，用的默认

scheduler_driver=nova.scheduler.filter_scheduler.FilterScheduler

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

[filter_scheduler] 默认有,此处没有修改

available_filters=nova.scheduler.filters.all_filters

available_filters=nova.scheduler.filters.pci_passthrough_filter.PciPassthroughFilter

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

[DEFAULT]修改此处

scheduler_default_filters=RamFilter,ComputeFilter,AvailabilityZoneFilter,ComputeCapabilitiesFilter,ImagePropertiesFilter,PciPassthroughFilter

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（2）重启nova-scheduler 服务

执行命令：sudo service nova-scheduler restart

（3）配置nova-api （controller节点），编辑文件 /etc/nova/nova.conf:

[PCI] 添加内容

alias = {"name":"nvidia_v100","product_id":"1db6","vendor_id":"10de","device_type":"type-PCI"}

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（4）重启nova-api服务

执行命令：sudo service nova-api restart

（5）配置nova-compute（compute 节点），编辑文件/etc/nova/nova.conf:

[PCI] 添加内容

passthrough_whitelist = { "vendor_id":"10de","product_id":"1db6" }

alias = {"name":"nvidia_v100","product_id":"1db6","vendor_id":"10de","device_type":"type-PCI"}

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（6）重启nova-compute服务

执行命令：sudo service nova-compute restart

4、创建GPU服务器验证绑定

4.1 方法及步骤：

（1）创建主机聚合

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

(2) 创建Flavor 添加属性

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

(3) 创建云服务器

执行命令： openstack server create --network vlan-161 --image ecs-ubuntu1604-x64-20181220 --flavor 513dfb0c-132b-4fb9-903a-ffd131cce6d7 test-gpu-1

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

（4）进入创建的GPU服务器验证挂载

执行命令：lspci -nn | grep NVIDIA

01.GPU云服务器直通方式实现

博客分类： GPU服务器 GPUopenstackpassthoughNVIDIAV100

上一篇：谨慎使用PHP的引用类型详解

下一篇：未将对象引用设置到对象的实例 OOP-----类与对象对象

01.GPU云服务器直通方式实现

1、设备环境

2、配置操作系统

3、配置openstack

4、创建GPU服务器验证绑定

中国首款亿级并发云服务器系统实现量产

用ASP+DLL实现WEB方式修改服务器时间

使用云监控实现GPU云服务器的GPU监控和报警（上） - 自定义监控

通过阿里云ECS服务器部署FRP实现Windows自带远程桌面

云服务器上部署MySQL数据库实现远程连接

xshell使用ssh方式登录百度云服务器

前端上传pdf文件到阿里云服务器的实现方法

腾讯云（ubuntu）下安装 nodejs + 实现 Nginx 反向代理服务器

利用Qt/C++在腾讯云/阿里云服务器搭建TCP/IP协议实现网络通信以及Qt在linux下的安装和程序打包踩坑（详解）

Python实现云服务器防止暴力密码破解

01.GPU云服务器直通方式实现

1、 设备环境

2、 配置操作系统

3、 配置openstack

4、 创建GPU服务器验证绑定

中国首款亿级并发云服务器系统实现量产

用ASP+DLL实现WEB方式修改服务器时间

使用云监控实现GPU云服务器的GPU监控和报警（上） - 自定义监控

通过阿里云ECS服务器部署FRP实现Windows自带远程桌面

云服务器上部署MySQL数据库实现远程连接

xshell使用ssh方式登录百度云服务器

前端上传pdf文件到阿里云服务器的实现方法

腾讯云（ubuntu）下安装 nodejs + 实现 Nginx 反向代理服务器

利用Qt/C++在腾讯云/阿里云服务器搭建TCP/IP协议实现网络通信以及Qt在linux下的安装和程序打包踩坑（详解）

Python实现云服务器防止暴力密码破解

1、设备环境

2、配置操作系统

3、配置openstack

4、创建GPU服务器验证绑定