欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

安装 nvidia 驱动,cuda, 以及 cudnn

程序员文章站 2022-04-08 08:46:05
...

安装 nvidia 驱动是一个很坑的问题。至少对于我来说,按照 nvidia 官网的方式下载 .run 文件安装从来没成功过。最后我搜了内外网,找到了本文即将介绍的安装方式,很好用!

安装 nvidia 驱动

  1. 添加 nvidia repository
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
  1. 选择驱动版本并安装
ubuntu-drivers devices

显示可用的驱动版本,例如:

driver   : nvidia-410 - third-party free
driver   : nvidia-415 - third-party free
driver   : nvidia-418 - third-party free
driver   : nvidia-384 - distro non-free
driver   : nvidia-430 - third-party free recommended
driver   : xserver-xorg-video-nouveau - distro free builtin

如果要安装 410 版本,就用如下命令

sudo apt install nvidia-410

也可以选择 415, 418 等其他驱动版本。
上边显示的驱动可能会有变化,例如这样(中间多了 "driver" 字样)

driver   : nvidia-driver-410 - third-party free
driver   : nvidia-driver-415 - third-party free
driver   : nvidia-driver-440 - third-party free recommended
driver   : nvidia-driver-430 - third-party free
driver   : nvidia-driver-390 - third-party free
driver   : nvidia-driver-435 - third-party free
driver   : xserver-xorg-video-nouveau - distro free builtin

依然安装对应的驱动,例如

sudo apt install nvidia-driver-410

注意:如果在 BIOS 中将 secure boot 设置为 on,在上述安装过程中可能出现设置 secure boot 密码的相关提示。如果在安全性方面要求不是很苛刻,可以考虑将 secure boot 设置为 off.

  1. 重启,然后看看系统设置中的附加驱动中是否添加了 nvidia 的驱动,如下

    安装 nvidia 驱动,cuda, 以及 cudnn

    Screenshot from 2019-01-21 20-09-07.png


    也可以通过用如下命令查看
nvidia-smi

其中 smi = System Management Interface。 如果安装成功,上述命令应该会显示驱动版本号 410。

如果重启之后运行 “nvidia-smi” 时出现如下错误:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

一种可能的解决方法是在上述 "Software & Updates" 界面中选择其他驱动版本,尤其是较新的版本,Apply changes 之后重启,可能解决问题。

如果上述方式安装失败,可以参考这篇文章,尝试其他的安装方法。也可以参考这篇文章 中的安装方式。

安装 cuda

安装 cuda 是为了加速训练神经网络。首先去下边的网站确定一下本机 NVIDIA 显卡类型是否支持 cuda
https://developer.nvidia.com/cuda-gpus
只要不是太古老的 NVIDIA 显卡一般都支持 cuda。

如果训练中用到了 tensorflow,应该确认一下 cuda 版本与 tensorflow 版本的兼容性问题。有些程序指定要用某个版本的 tensorflow,那么就应该安装与之兼容的 cuda 版本。

 

安装 nvidia 驱动,cuda, 以及 cudnn

versions.png

如果装了 cuda 10 ,但是训练程序使用 tensorflow 1.11,版本不匹配,运行程序时会提示类似如下的错误:

 ImportError: libcublas.so.9.0: cannot open shared object file

版本对应关系可以在这里查询。

PyTorch 的版本与 cuda 版本也有对应关系,在 PyTorch 主页 可以下载与 cuda 对应的版本,如果要下载更旧的版本,可以在这里这里查找。

说到版本对应关系,cuda 对 nvidia GPU 驱动也是有最低版本要求的,可以查看这里

确定要安装的 cuda 版本之后,按照 官网步骤安装即可。

例如,我选择的是 cuda 10.0

 

安装 nvidia 驱动,cuda, 以及 cudnn

Screenshot from 2019-01-21 20-35-41.png

安装完了还需要检查一下是否成功。用如下命令:

nvcc -V

应该会显示 cuda compiler 版本,这样就说明 cuda 安装成功了。但是,有时候上述命令会提示找不到 nvcc,一个原因可能是确实没装好,但是也有可能cuda 装好了,但是 nvcc 所在路径没有加入系统路径中,所以系统找不到 nvcc 。

如果cuda 安装好了, nvcc 程序应该在路径 /usr/local/cuda/bin 中,可以直接在该路径下执行

./nvcc -V

也可以把 nvcc 加入系统路径中,例如在 .bashrc 文件最后加一句

export PATH=$PATH:/usr/local/cuda/bin

安装 cudnn

这一部分也是按照官网的指导安装即可 https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html
比较麻烦的一点是,需要先注册才能下载 cudnn 安装文件。

选择安装文件版本的时候,要与 cuda 版本匹配。

然后就是安装,我的机子是 ubuntu 16.04,所以就选了如下三个文件

 

安装 nvidia 驱动,cuda, 以及 cudnn

 

参考网址:

  1. https://www.jianshu.com/p/fc5edbd6f480
相关标签: 深度学习