Ubuntu server16.04安装配置驱动418.87、cuda10.1、cudnn7.6.4.38、anaconda、pytorch超详细解决

安装GCC
安装NVIDIA驱动
安装cudnn
安装anaconda
安装tensorflow
安装pytorch
Reference

本篇博文根据本人亲装碰到的问题搜寻总结而成，具体参考见结尾REFERENCE

安装GCC

服务器版未装有gcc，但英伟达驱动安装需要gcc，尝试过换源、更新软件库、以及overstack的几种方法均未能解决，最终发现可以通过安装build-essential软件包来解决问题，它会安装一堆新包，包括gcc， g++和make。

sudo apt install build-essential

安装NVIDIA驱动

由于直接安装cuda如果选择安装驱动会直接版本较低的驱动，所以采用先装驱动后装cuda的方式。

1. 卸载原有驱动（没装跳过）

方法一、通用sudo apt-get remove –purge nvidia*
方法二、非官网驱动sudo apt-get remove --purge nvidia（版本全称，如我的nvidia-384.130）
方法三、官网驱动 sh ./nvidia.run --uninstall

2. 禁用nouveau

安装NVIDIA需要先禁用系统自带的驱动

打开文件sudo gedit /etc/modprobe.d/blacklist.conf

在文本末尾添加

blacklist nouveau
option nouveau modeset=0

无视warn

wq，执行sudo update-initramfs -u
检测，lsmod | grep nouveau，没有任何输出说明禁用成功

3. 安装NVIDIA显卡驱动

查看支持的驱动版本

sudo apt-cache search nvidia*，一般安装大于等于最大的版本就好，我安装的是418.87
下载NVIDIA驱动，

官网地址
禁用X服务（最好有一台备用电脑，因为这一步会黑屏…因为我是采用ssh连接，所以对我没影响）

sudo service lightdm stop

给文件赋执行权限并cd到下载目录

cd ~ 
sudo chmod a+x NVIDIA-Linux-x86_64-384.130.run

安装

sudo sh ./NVIDIA-Linux-x86_64-375.20.run –no-opengl-files
检测是否成功 nvidia-smi

安装CUDA10.1

官网地址
禁用X服务（黑屏）

sudo service lightdm stop

给文件赋执行权限并安装

sudo chmod a+x cuda_10.1.243_418.87.00_linux.run

sudo sh cuda_10.1.243_418.87.00_linux.run --override

accepted，除了驱动不选择，其他都选。

打开配置文件 vim ~/.bashrc,末尾写入

export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

生效 source ~/.bashrc

检测是否成功 nvcc -V

安装cudnn

官网下载，找到与cuda版本配对的cudnn，查看官网配对，以及更全的版本配对，我的cuda为10.1所以，cudnn选的是7.6.4

将下载的添加为压缩包并解压

# compression
cp  cudnn-8.0-linux-x64-v5.1.solitairetheme8 good.tgz
# decompression
tar -xvf good.tgz

安装，其实就是改变文件位置和权限

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d 
$ sudo chmod a+r /usr/local/cuda/include/cudnn.h
$ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

查看cudnn版本：

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

以上便配置好服务器，以下为非root用户根据需要安装。

我安装的是anaconda、tensorflow、pytorch

安装anaconda

卸载anaconda（如有） rm-rf ~/anaconda，然后修改配置文件~/.bashrc
官网下载并安装
配置文件/home/yourusername/.profile,在最后一行添加如下
```
# Anaconda
export PATH=$PATH:/home/username/anaconda3/bin
```
生效 source /home/username/.profile

安装tensorflow

查看官网配对，确定安装版本

# 如果你安装的是 Python 3.6 版的Anaconda:
conda create --name tf_gpu_env tensorflow-gpu # tf_gpu_env是这个环境的名字

# 如果你安装的是 Python 3.7 版的Anaconda，则需要声明新创建的环境使用 Python 3.6:
conda create --name tf_gpu_env python=3.6 anaconda tensorflow-gpu

安装pytorch

新建虚拟环境并激活环境

conda create -n pytorch python=3.7
activate pytroch

查看官网选择版本，获得代码

如我的

解决问题：

Reference

https://blog.csdn.net/zhang970187013/article/details/81012845

https://www.linuxidc.com/Linux/2019-06/159059.htm

https://blog.csdn.net/Eddy_zheng/article/details/52910249

https://blog.csdn.net/DarrenXf/article/details/82182449

https://blog.csdn.net/qq_41620607/article/details/81236525

https://www.cnblogs.com/onemorepoint/p/7453766.html

https://blog.csdn.net/qq_22474567/article/details/54984257

https://blog.csdn.net/yuejisuo1948/article/details/81043962

https://github.com/tensorflow/tensorflow/issues/30191

https://blog.csdn.net/weixin_44179909/article/details/96973208

https://zhuanlan.zhihu.com/p/59278962

本文链接：https://www.cnblogs.com/icodeworld/p/11609747.html

Ubuntu server16.04安装配置驱动418.87、cuda10.1、cudnn7.6.4.38、anaconda、pytorch超详细解决

Ubuntu server16.04安装配置驱动418.87、cuda10.1、cudnn7.6.4.38、anaconda、pytorch超详细解决

安装GCC

安装NVIDIA驱动

1. 卸载原有驱动（没装跳过）

2. 禁用nouveau

3. 安装NVIDIA显卡驱动

安装CUDA10.1

安装cudnn

安装anaconda

安装tensorflow

安装pytorch

Reference

Ubuntu server16.04安装配置驱动418.87、cuda10.1、cudnn7.6.4.38、anaconda、pytorch超详细解决的更多相关文章

随机推荐

热门专题

目录导航