CentOS7安装NVIDIA驱动、cuda、cudnn、TensorFlow

程序员文章站 2024-01-07 17:44:52

...

安装Centos7系统：

分区参数，我采用的是标准分区。

200MB 主分区挂载点： /boot
102399MB 逻辑分区挂载点： /（根目录）
192922MB 挂载点： swap（虚拟内存）
5705082MB 逻辑分区挂载点： /home
总共6TB

CentOS7.3安装NVIDIA-1080ti驱动、cuda、cudnn、TensorFlow
主要参考：
https://www.cnblogs.com/mar-q/p/7482720.html

CUDA支持显卡版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

CentOS7系统内核
3.10.0-693.el7.x86_64

CentOS7系统图形界面与命令行的转换：
如果在图形界面下，按：Ctrl+Alt+F2，可以进入命令行模式
如果在命令行模式，按Ctrl+Alt+F1，可以进入图形界面
也可以使用命令行模式：
输入 init 3 命令切换到dos界面
输入 init 5命令切换到图形界面

安装显卡

1.安装显卡驱动出错：
You appear to be running an X server; please exit X before
ctrl+alt+2进入命令行后，关闭CentOS的X server：
sudo service gdm stop --关闭X server
sudo service gdm start --开启X server

CentOS7 关闭X Server的另一种方法：

https://blog.csdn.net/rznice/article/details/53386436

systemctl stop gdm.service来关掉X Server

2.ERROR: The Nouveau kernel driver is currently in use by your system.
这要重新建立initramfs文件：
https://blog.csdn.net/Fortuna_i/article/details/83141070
下面这个命令是备份，这个img文件，我输入uname -r查看我的系统版本为：3.10.0-693.el7.x86_64
但是
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

3.ERROR: unable to find the kernel source tree for the current running kernel
uname -r查看当前内核版本
rpm -qa | grep kernel 列出所有的img包
然后可以remove你不需要的包，
重新建立initramfs image文件
# mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
# dracut /boot/initramfs-$(uname -r).img $(uname -r)
你的grub选择界面就会出现新的启动系统内核选择了。

4.an error occurend while performing the step:"Building kernel modules" ,see /var/log/nvidia-installer
根据网上的说法，这个错误就是因为linux的内核版本不断在更新，显卡驱动无法跟最新的内核匹配，所以最简单的方法就是去NIVIDIA官网下载最新的驱动，
见网址：
https://blog.csdn.net/clever_wr/article/details/91897337
实际上我之前在用命令:nividia-detect v 查看显卡信息的时候，它就提示我下载430.26版本的linux驱动，但是430.26版本的驱动是GEFORCE的显卡驱动，
虽然GEFORCE RTX 2080的显存和Tesla k40m的一样大。于是抱着试一试的心态，我用Tesla k40m安了这个GEFORCE RTX 2080的驱动，居然成功了！！！

安装CUDA

卸载CUDA：

# cd /usr/local/cuda-8.0/bin/

# ./uninstall_***

我在使用nvidia-smi的时候，它提示我使用CUDA10.2，但是实际上最新的CUDA版本是10.1，于是我索性下载了10.1的。

CUDA 10.1下载地址：

https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=rpmlocal

安装失败：

please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA

上面这个是安装CUDA的参考文档，没什么用。

于是我不用.run文件来安装CUDA10.1，我打算用rpm文件来。

下载之后使用命令安装：

$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
$ sudo yum clean all
$ sudo yum install cuda

输出：

[[email protected] cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告：cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, ** ID 7fa2af80: NOKEY
[[email protected] cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告：cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, ** ID 7fa2af80: NOKEY
软件包 cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64 已经安装

报错：
ERROR:Cannot find a valid baseurl for repo: base/7/x86_64
solution: CentOS7用yum安装软件显示错误：cannot find a valid baseurl for repo: base/7/x86_64
https://blog.csdn.net/qq_37922264/article/details/81054673

ERROR:yum被packagekit占用问题
https://blog.csdn.net/zhixianjava/article/details/77850710

又输出：

错误：软件包：cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libX11-devel
错误：软件包：3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：opencl-filesystem
错误：软件包：1:libglvnd-opengl-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
          已安装: 1:libglvnd-1.0.1-0.8.git5baa1e5.el7.x86_64 (@base)
              libglvnd(x86-64) = 1:1.0.1-0.8.git5baa1e5.el7
          可用: 1:libglvnd-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
              libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
错误：软件包：cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libXmu-devel
错误：软件包：cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：mesa-libGLU-devel
错误：软件包：3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libvdpau(x86-64) >= 0.5
错误：软件包：3:nvidia-driver-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libva-vdpau-driver(x86-64)
错误：软件包：3:dkms-nvidia-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：dkms
错误：软件包：3:nvidia-settings-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libvdpau(x86-64) >= 0.9
错误：软件包：cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：freeglut-devel
错误：软件包：3:nvidia-libXNVCtrl-devel-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libX11-devel
错误：软件包：3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：ocl-icd
错误：软件包：3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：vulkan-filesystem
错误：软件包：cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要：libXi-devel
您可以尝试添加 --skip-broken 选项来解决该问题
您可以尝试执行：rpm -Va --nofiles --nodigest

这里需要一个一个地安装库，我实在不会安装，就此打住。

命令附录：
1.查看 nvidia 显卡：
https://www.csdn.net/gather_26/MtjaQg4sNTk5Mi1ibG9n.html
Linux查看显卡信息：
[python] view plain copy
lspci | grep -i vga
使用nvidia GPU可以：
[python] view plain copy
lspci | grep -i nvidia

2.centos更换账户：
$ whoami --查看自己的身份
$ su roor --使用root权限
$ su 其它账户名

3.卸载CUDA

http://blog.sina.com.cn/s/blog_6d55a74b0102xdau.html

1）. 卸载cuda-toolkit

# cd /usr/local/cuda-8.0/bin/

# ./uninstall_***

2）. 卸载显卡驱动

假如安装的是NVIDIA-Linux-x86-340.96.run

则运行如下命令：sh NVIDIA-Linux-x86-270.41.19.run --uninstall

4.一个可以按照系统搜索rpm包的网站

http://rpm.pbone.net/index.php3/stat/4/idpl/51208977/dir/centos_7/com/libX11-devel-1.6.5-2.el7.x86_64.rpm.html

CentOS7安装NVIDIA驱动、cuda、cudnn、TensorFlow

安装显卡

安装CUDA