环境信息

服务器型号

系统版本

驱动版本

Dell R740xd

ESXi6.5u3 15177306

NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86

Dell R940xa

ESXi6.5u3 15177306

NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86

GPU型号

Nvidia Tesla V100

 

备注:驱动版本和系统版本一定要对应,系统版本必须是ESXi6.5u3或以上,建议使用6.7版本

一、ESXi主机配置

1ESXi主机安装GPU驱动

ESXi主机开启ssh,用winscp软件将驱动传到主机下,迁移或者关闭主机上所有虚拟机,然后将主机置入维护模式,并安装驱动

 

 

 安装驱动,返回值successfully则表示安装成

 

 

 卸载驱动用如下命令

 

 

 查看驱动是否安装成功

 

 

 

2、修改BIOS设置

Memory Mapped I/O Base 设置为 512 GB(默认为 56 TB)或 12 TB(如果服务器的 RAM 大于 512 GB):重新引导系统后生效

 

 

 

 

 

此问题在 R740 用户硬件手册中介绍如下:

Memory Mapped I/O above 4 GB – 启用或禁用要求大量内存的 PCIe 设备支持。仅 64 位操作系统可启用此选项。此选项默认为已启用。

Memory Mapped I/O above Base – 当设置为 12 TB 时,系统将 MMIO 库映射到 12 TB。需要 44 PCIe 寻址的操作系统可启用此选项。
当设置为 512 GB 时,系统将 MMIO 库映射到 512 GB,并将最大内存支持减少到低于 512 GB。仅针对 4 GPU DGMA 问题启用此选项。此选项默认设置为 56 TB

注意:设置此选项会将内存限制为512GB(如果已设置为512GB

3、查看GPU信息

使用命令nvidia-smi查看是否显示GPU信息,如下:

 

 

 

4vCenter设置图形共享模式

在确认驱动状态没问题以后,我们登陆vCenter,定位到主机配置图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享“才能使用vGPU

 

2GPU分配策略,在有多个GPU的时候生效。

默认最佳性能模式,会在所有可能的GPU上去运行虚拟机,即VM1运行在GPU1VM2运行在GPU2,以此类推,尽可能平均的分布虚拟机,不会让GPU闲着。

GPU整合模式,会在一个GPU核心上运行先启动的虚拟机,直到当前GPU没有资源才会去使用下一个GPU核心,这个模式多用在同一台服务器上运行多个vGPU profile的情况下。

 

 

 

 

 

 除了主机的图形选项,针对每个GPU也都可以单独设置共享模式,第一次使用需要在这里再切换一下,主要是需要重启xorg服务来改变配置,不同vSphere版本界面可能不能,部分vSphere 6.5早期版本需要手动重启xorg服务

 

 

 二、虚拟机配置vGPU

版本兼容性列表

 

 

 

1windows配置vGPU

系统版本:win2008R2win2012R2win2016R2win2012R2官网没有企业版,所以只能安装标准版)

系统安装完成后关闭防火墙,打开远程桌面。

注:虚拟机添加vGPU安装驱动后,虚拟桌面连接失效,必须开启远程桌面连接或删除共享pci直通

安装驱动后Nvidia控制面板打不开或者报错,解决办法:安装驱动精灵,升级显卡驱动后重启。

授权vGPU,打开Nvidia控制面板,输入License Server IP以及固定的端口号7070 ,重启后查看授权服务器是否生效

 

 

 

2Centos7.8配置vGPU

2.1、关闭防火墙和selinux

修改/etc/selinux/config文件

SELINUX=disabled

2.2、查看最新内核版本并更新

 

 

 当前版本为3.10.0-1127.el7,最新版为以下3.10.0-1127.13.1.el7

 

 

 安装以下更新包,重启后查看是否生效

 

 

 

检测NVIDIA驱动是否存在

 

2.3、禁用Nouveau驱动

查看nouveau是否运行,如有输出结果即为运行

 

 

 

修改/lib/modprobe.d/dist-blacklist.conf 文件

blacklist nvidiafb注释,并添加以下两行内容

blacklist nouveau

options  nouveau modeset=0

 

 

 

 

2.4重建 initramfs image

# mv /boot/initramfs-$(uname -r).img  /boot/initramfs-$(uname -r).img.bak

# dracut /boot/initramfs-$(uname -r).img $(uname -r)

 

 

 安装gccgcc-c++

 

 

 

2.5、安装NVIDIA驱动

添加可执行权限

# chmod +x NVIDIA-Linux-x86_64-440.87-grid.run

退出X-server图形,进入文本模式

# init 3

进入驱动目录安装驱动程序

默认Yes

 

Install and overwrite exis

 

 

 

 

 

 

 结束安装后重启虚拟机

2.6、修改授权配置文件

进入/etc/nvidia目录,查看是否有gridd.conf文件

 

 

如果没有,复制gridd.conf.template此文件,然后命名gridd.conf,在修改此文件内容

 

 

 

添加vGPU授权服务器IP和端口号

 

2.7vGPU授权

重启nvidia服务,登录授权服务器查看是否已有授权

# systemctl restart nvidia-gridd.service

 

 

 

 登陆license服务器查看是否有授权

http://10.86.192.8:8080/licserver

 

 关于单个VM使用多个vGPUESXi版本必须是6.7u3及以上,首先ESXi需要升级到6.7U3的版本才支持,其次虚拟机兼容性也需要修改为vSphere 6.7 Update 2或之后的版本,第三只有多个Q或者C系列的vGPU能添加到单个虚拟机上,而且也会有最低显存设置。

 

 

 

 

 

 

 

 

 

 

版权声明:本文为xiaoren112原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/xiaoren112/p/14060599.html