欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

CentOS7安装NVIDIA驱动、cuda、cudnn、TensorFlow

程序员文章站 2024-01-07 17:44:52
...

安装Centos7系统:

分区参数,我采用的是标准分区。

200MB        主分区    挂载点:  /boot 
102399MB  逻辑分区  挂载点:  /(根目录)
192922MB                 挂载点:  swap(虚拟内存)
5705082MB 逻辑分区 挂载点: /home
总共6TB

 

CentOS7.3安装NVIDIA-1080ti驱动、cuda、cudnn、TensorFlow
主要参考:
https://www.cnblogs.com/mar-q/p/7482720.html

CUDA支持显卡版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

CentOS7系统内核
3.10.0-693.el7.x86_64

CentOS7系统图形界面与命令行的转换:
如果在图形界面下,按:Ctrl+Alt+F2,可以进入命令行模式
如果在命令行模式,按Ctrl+Alt+F1,可以进入图形界面
也可以使用命令行模式:
输入 init 3 命令 切换到dos界面
输入 init 5命令 切换到图形界面

安装显卡

1.安装显卡驱动出错:
You appear to be running an X server; please exit X before
ctrl+alt+2进入命令行后,关闭CentOS的X server:
sudo service gdm stop --关闭X server
sudo service gdm start --开启X server

CentOS7 关闭X Server的另一种方法:

https://blog.csdn.net/rznice/article/details/53386436

systemctl stop gdm.service来关掉X Server

 

2.ERROR: The Nouveau kernel driver is currently in use by your system.
这要重新建立initramfs文件:
https://blog.csdn.net/Fortuna_i/article/details/83141070
下面这个命令是备份,这个img文件,我输入uname -r查看我的系统版本为:3.10.0-693.el7.x86_64
但是
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut -v /boot/initramfs-$(uname -r).img $(uname -r)


3.ERROR: unable to find the kernel source tree for the current running kernel
uname -r查看当前内核版本
rpm -qa | grep kernel 列出所有的img包
然后可以remove你不需要的包,
重新建立initramfs image文件
# mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
# dracut /boot/initramfs-$(uname -r).img $(uname -r)
你的grub选择界面就会出现新的启动系统内核选择了。


4.an error occurend while performing the step:"Building kernel modules" ,see /var/log/nvidia-installer
根据网上的说法,这个错误就是因为linux的内核版本不断在更新,显卡驱动无法跟最新的内核匹配,所以最简单的方法就是去NIVIDIA官网下载最新的驱动,
见网址:
https://blog.csdn.net/clever_wr/article/details/91897337
实际上我之前在用命令:nividia-detect v 查看显卡信息的时候,它就提示我下载430.26版本的linux驱动,但是430.26版本的驱动是GEFORCE的显卡驱动,
虽然GEFORCE RTX 2080的显存和Tesla k40m的一样大。于是抱着试一试的心态,我用Tesla k40m安了这个GEFORCE RTX 2080的驱动,居然成功了!!!

安装CUDA

卸载CUDA:

# cd /usr/local/cuda-8.0/bin/

# ./uninstall_***

我在使用nvidia-smi的时候,它提示我使用CUDA10.2,但是实际上最新的CUDA版本是10.1,于是我索性下载了10.1的。

CUDA 10.1下载地址:

https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=rpmlocal

安装失败:

please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA

上面这个是安装CUDA的参考文档,没什么用。

于是我不用.run文件来安装CUDA10.1,我打算用rpm文件来。

下载之后使用命令安装:

$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
$ sudo yum clean all
$ sudo yum install cuda

输出:

[[email protected] cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告:cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, ** ID 7fa2af80: NOKEY
[[email protected] cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告:cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, ** ID 7fa2af80: NOKEY
    软件包 cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64 已经安装

报错:
ERROR:Cannot find a valid baseurl for repo: base/7/x86_64
solution: CentOS7用yum安装软件显示错误:cannot find a valid baseurl for repo: base/7/x86_64
https://blog.csdn.net/qq_37922264/article/details/81054673

ERROR:yum被packagekit占用问题
https://blog.csdn.net/zhixianjava/article/details/77850710

又输出:

错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libX11-devel
错误:软件包:3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:opencl-filesystem
错误:软件包:1:libglvnd-opengl-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
          已安装: 1:libglvnd-1.0.1-0.8.git5baa1e5.el7.x86_64 (@base)
              libglvnd(x86-64) = 1:1.0.1-0.8.git5baa1e5.el7
          可用: 1:libglvnd-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
              libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libXmu-devel
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:mesa-libGLU-devel
错误:软件包:3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libvdpau(x86-64) >= 0.5
错误:软件包:3:nvidia-driver-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libva-vdpau-driver(x86-64)
错误:软件包:3:dkms-nvidia-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:dkms
错误:软件包:3:nvidia-settings-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libvdpau(x86-64) >= 0.9
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:freeglut-devel
错误:软件包:3:nvidia-libXNVCtrl-devel-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libX11-devel
错误:软件包:3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:ocl-icd
错误:软件包:3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:vulkan-filesystem
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
          需要:libXi-devel
 您可以尝试添加 --skip-broken 选项来解决该问题
 您可以尝试执行:rpm -Va --nofiles --nodigest

这里需要一个一个地安装库,我实在不会安装,就此打住。

 

命令附录:
1.查看 nvidia 显卡:
https://www.csdn.net/gather_26/MtjaQg4sNTk5Mi1ibG9n.html
Linux查看显卡信息:
[python] view plain copy
lspci | grep -i vga  
使用nvidia GPU可以:
[python] view plain copy
lspci | grep -i nvidia  

2.centos更换账户:
$ whoami  --查看自己的身份
$ su roor  --使用root权限
$ su 其它账户名

3.卸载CUDA

http://blog.sina.com.cn/s/blog_6d55a74b0102xdau.html

1). 卸载cuda-toolkit

# cd /usr/local/cuda-8.0/bin/

# ./uninstall_***

2). 卸载​显卡驱动

假如​安装的是NVIDIA-Linux-x86-340.96.run 

则运行如下命令:sh NVIDIA-Linux-x86-270.41.19.run --uninstall

4.一个可以按照系统搜索rpm包的网站

http://rpm.pbone.net/index.php3/stat/4/idpl/51208977/dir/centos_7/com/libX11-devel-1.6.5-2.el7.x86_64.rpm.html

 

相关标签: 环境配置 AI

上一篇:

下一篇: