物理机GPU设备
功能概述
ZStack Cloud云平台支持物理GPU透传功能,物理GPU可携带其上全部外设(包括:GPU显卡、GPU声卡、以及其它GPU上的小设备)以组为单位整体透传给云主机使用,让云主机享有物理机强劲的GPU并行计算能力。该功能适用于3D渲染、高清转解码、以及具备高密集运算特点的高性能计算(HPC)场景。
ZStack Cloud云平台支持以下型号的物理GPU透传:
NVIDIA | AMD |
---|---|
Tesla T4 | FirePro S7150 |
Tesla M6/M10/M60 | FirePro S7150X2 |
Tesla P100/P40/P6/P4 | Radeon Pro系列显卡 |
Tesla V100 | Radeon Instinct系列显卡 |
RTX 5000/6000/8000 | Radeon Vega系列显卡 |
GeForce GTX 1000系列 | NULL |
GeForce RTX 2000系列 | NULL |
GeForce RTX 3000系列 | NULL |
NVIDIA A系列 | NULL |
更多请参考[NVIDIA官方文档](nvidia.com/grid/latest/)
最佳实践
- 确保物理机BIOS中开启Intel VT-d / AMD IOMMU功能,且物理机内核已开启IOMMU支持。
- 停止云主机再执行卸载GPU操作,否则可能导致蓝屏以及暂停。
- 对Windows云主机透传GPU设备场景,需要通过UEFI方式为云主机安装操作系统。
- KVM虚拟化标记需要开启隐藏。
- 云主机需开启Hyper-V。
- 全局设置中开启PCI设备热插拔。
GPU性能低需要关闭节能模式。
nvidia-smi -pm 1
注意事项
- 一台云主机支持同时加载多个物理GPU设备,但不支持同时加载物理GPU和vGPU设备。
- GPU透传给云主机后,更改物理机、更改物理机和主存储、高可用功能可能无法正常工作。
- 全局设置PCI设备热插拔开关默认为true,若热插拔时出现硬件兼容性错误,或不支持该硬件设备时,建议关闭此功能(设置为false)。
- 指定GPU规格方式支持批量创建云主机,但指定GPU设备方式仅支持单个创建云主机。
- 确保已获取到GPU设备对应的驱动,相关驱动以及安装方法请联系GPU设备提供厂商获取帮助。
- ZStack Cloud云平台物理机安装支持虚拟化的驱动程序为专用驱动,不能使用普通的Linux GPU显卡驱动。
NVIDIA License Server尽量安装在英文版操作系统中,不然会产生与web浏览器不兼容的情况,平台必须具有固定(不变)IP地址。平台必须至少有一个不变的以太网MAC地址,以便在注册服务器和在NVIDIA许可门户网站中生成许可证时用作唯一标识符。平台的日期/时间必须准确设置。
NVIDIA A系列显卡需要云平台升级至4.4.24及以上版本,物理机内核版本需要4.18.0以上 ,物理机gcc版本需要升级至8.3.1
- RTX5000透传时需要在物理机 grub中配置video=efifb:off video=simplefb:off video=vesafb:off