CentOS7安装NVIDIA驱动、cuda、cudnn、TensorFlow
安装Centos7系统:
分区参数,我采用的是标准分区。
200MB 主分区 挂载点: /boot
102399MB 逻辑分区 挂载点: /(根目录)
192922MB 挂载点: swap(虚拟内存)
5705082MB 逻辑分区 挂载点: /home
总共6TB
CentOS7.3安装NVIDIA-1080ti驱动、cuda、cudnn、TensorFlow
主要参考:
https://www.cnblogs.com/mar-q/p/7482720.html
CUDA支持显卡版本
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
CentOS7系统内核
3.10.0-693.el7.x86_64
CentOS7系统图形界面与命令行的转换:
如果在图形界面下,按:Ctrl+Alt+F2,可以进入命令行模式
如果在命令行模式,按Ctrl+Alt+F1,可以进入图形界面
也可以使用命令行模式:
输入 init 3 命令 切换到dos界面
输入 init 5命令 切换到图形界面
安装显卡
1.安装显卡驱动出错:
You appear to be running an X server; please exit X before
ctrl+alt+2进入命令行后,关闭CentOS的X server:
sudo service gdm stop --关闭X server
sudo service gdm start --开启X server
CentOS7 关闭X Server的另一种方法:
https://blog.csdn.net/rznice/article/details/53386436
systemctl stop gdm.service来关掉X Server
2.ERROR: The Nouveau kernel driver is currently in use by your system.
这要重新建立initramfs文件:
https://blog.csdn.net/Fortuna_i/article/details/83141070
下面这个命令是备份,这个img文件,我输入uname -r查看我的系统版本为:3.10.0-693.el7.x86_64
但是
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
3.ERROR: unable to find the kernel source tree for the current running kernel
uname -r查看当前内核版本
rpm -qa | grep kernel 列出所有的img包
然后可以remove你不需要的包,
重新建立initramfs image文件
# mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
# dracut /boot/initramfs-$(uname -r).img $(uname -r)
你的grub选择界面就会出现新的启动系统内核选择了。
4.an error occurend while performing the step:"Building kernel modules" ,see /var/log/nvidia-installer
根据网上的说法,这个错误就是因为linux的内核版本不断在更新,显卡驱动无法跟最新的内核匹配,所以最简单的方法就是去NIVIDIA官网下载最新的驱动,
见网址:
https://blog.csdn.net/clever_wr/article/details/91897337
实际上我之前在用命令:nividia-detect v 查看显卡信息的时候,它就提示我下载430.26版本的linux驱动,但是430.26版本的驱动是GEFORCE的显卡驱动,
虽然GEFORCE RTX 2080的显存和Tesla k40m的一样大。于是抱着试一试的心态,我用Tesla k40m安了这个GEFORCE RTX 2080的驱动,居然成功了!!!
安装CUDA
卸载CUDA:
# cd /usr/local/cuda-8.0/bin/
# ./uninstall_***
我在使用nvidia-smi的时候,它提示我使用CUDA10.2,但是实际上最新的CUDA版本是10.1,于是我索性下载了10.1的。
CUDA 10.1下载地址:
安装失败:
please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA
上面这个是安装CUDA的参考文档,没什么用。
于是我不用.run文件来安装CUDA10.1,我打算用rpm文件来。
下载之后使用命令安装:
$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
$ sudo yum clean all
$ sudo yum install cuda
输出:
[[email protected] cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告:cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, ** ID 7fa2af80: NOKEY
[[email protected] cuda]$ sudo rpm -i cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm
警告:cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64.rpm: 头V3 RSA/SHA512 Signature, ** ID 7fa2af80: NOKEY
软件包 cuda-repo-rhel7-10-1-local-10.1.168-418.67-1.0-1.x86_64 已经安装
报错:
ERROR:Cannot find a valid baseurl for repo: base/7/x86_64
solution: CentOS7用yum安装软件显示错误:cannot find a valid baseurl for repo: base/7/x86_64
https://blog.csdn.net/qq_37922264/article/details/81054673
ERROR:yum被packagekit占用问题
https://blog.csdn.net/zhixianjava/article/details/77850710
又输出:
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libX11-devel
错误:软件包:3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:opencl-filesystem
错误:软件包:1:libglvnd-opengl-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
已安装: 1:libglvnd-1.0.1-0.8.git5baa1e5.el7.x86_64 (@base)
libglvnd(x86-64) = 1:1.0.1-0.8.git5baa1e5.el7
可用: 1:libglvnd-1.0.1-0.6.git5baa1e5.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
libglvnd(x86-64) = 1:1.0.1-0.6.git5baa1e5.el7
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libXmu-devel
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:mesa-libGLU-devel
错误:软件包:3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libvdpau(x86-64) >= 0.5
错误:软件包:3:nvidia-driver-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libva-vdpau-driver(x86-64)
错误:软件包:3:dkms-nvidia-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:dkms
错误:软件包:3:nvidia-settings-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libvdpau(x86-64) >= 0.9
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:freeglut-devel
错误:软件包:3:nvidia-libXNVCtrl-devel-418.67-1.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libX11-devel
错误:软件包:3:nvidia-driver-cuda-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:ocl-icd
错误:软件包:3:nvidia-driver-libs-418.67-4.el7.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:vulkan-filesystem
错误:软件包:cuda-samples-10-1-10.1.168-1.x86_64 (cuda-10-1-local-10.1.168-418.67)
需要:libXi-devel
您可以尝试添加 --skip-broken 选项来解决该问题
您可以尝试执行:rpm -Va --nofiles --nodigest
这里需要一个一个地安装库,我实在不会安装,就此打住。
命令附录:
1.查看 nvidia 显卡:
https://www.csdn.net/gather_26/MtjaQg4sNTk5Mi1ibG9n.html
Linux查看显卡信息:
[python] view plain copy
lspci | grep -i vga
使用nvidia GPU可以:
[python] view plain copy
lspci | grep -i nvidia
2.centos更换账户:
$ whoami --查看自己的身份
$ su roor --使用root权限
$ su 其它账户名
3.卸载CUDA
http://blog.sina.com.cn/s/blog_6d55a74b0102xdau.html
1). 卸载cuda-toolkit
# cd /usr/local/cuda-8.0/bin/
# ./uninstall_***
2). 卸载显卡驱动
假如安装的是NVIDIA-Linux-x86-340.96.run
则运行如下命令:sh NVIDIA-Linux-x86-270.41.19.run --uninstall
4.一个可以按照系统搜索rpm包的网站
推荐阅读
-
CentOS7安装NVIDIA驱动、cuda、cudnn、TensorFlow
-
记录一篇w10下最新tensorflow2.3的安装包括anaconda,cuda,cudnn安装,配置环境
-
win10安装tensorflow-gpu1.13.1+cuda10.0+cudnn7.3.1
-
win10安装tensorflow-gpu1.13.1+cuda10.0+cudnn7.3.1
-
深度学习环境搭建(ubuntu16.04+Titan Xp安装显卡驱动+Cuda9.0+cudnn+其他软件)
-
(解决某些疑难杂症)Ubuntu16.04 + NVIDIA显卡驱动 + cuda10 + cudnn 安装教程
-
ubuntu18.40 rtx2080ti安装显卡驱动/cuda/cudnn/tensorflow-gpu
-
配置win10 + python3.7 + cuda10.1.243 + cudnn 7.6.5 + TensorFlow(CPU+GPU) 2.1.0 + keras2.3.1安装出现的错误解决方案
-
华为matebook win+deepin 15.11双系统 + 双显卡 + 使用/卸载大黄蜂方案 + NVIDIA独显驱动安装 + tensorflow-gpu-2.0
-
Ubuntu18.04 安装 显卡驱动 Nvidia Driver CUDA CUDNN 与GPU 版本的Pytorch