vGPU设备实践
功能概述
随着虚拟化与云计算技术的快速发展,越来越多的用户将应用迁移到云上。在这个过程中,用户希望一些特定的业务场景既能够在云环境中获得灵活、高效的资源交付能力,又能够获取与物理机无异的资源计算性能。GPU作为一种资源设备,近几年来随着大数据、人工智能等深度学习相关应用的深入,这一技术在云中的应用需求日益加深。
ZStack Cloud云平台支持vGPU功能,通过GPU虚拟化技术,将物理GPU切割成更细粒度的 vGPU,形成vGPU资源池。用户可使用vGPU规格快速创建轻量的vGPU云主机,实现更灵活弹性的资源部署、提高资源利用率、以及节约成本。该功能适用于云游戏、VDI、VR/AR、AI推理以及机器学习教学等轻量级GPU计算场景。
支持对以下型号显卡进行虚拟化切割:
NVIDIA系列 | AMD系列 |
---|---|
Tesla T4 | FirePro S7150 |
Tesla M10/M60 | FirePro S7150X2 |
Tesla P100/P40/P6/P4 | FirePro S7100X |
RTX 6000/8000 | FirePro S9050 |
Tesla V100 | FirePro S9150 |
NVIDIA A系列 | NULL |
更多请参考NVIDIA官方文档,查询在GPU卡规格中查询是否支持vGPU。
最佳实践
- 物理机虚拟化GPU时选择vGPU型号时,需要根据使用目的以及云主机的计算量来进行选择合适的vGPU型号,一般可使用的vGPU型号与获取的License类型有关。
- 每次VGPU的云主机运行的时候都会向License服务器发起License授权请求,要保证License服务器正常使用,否则云主机有可能不能正常加载授权。当云主机处于关闭状态时不占用任何GRID License。
注意事项
- 确保物理机BIOS中开启Intel VT-d或AMD IOMMU功能,且物理机内核已开启IOMMU支持,且在物理机界面也同样需要开启IOMMU开关。
- 确保物理机BIOS中开启SR-IOV和Memory Mapped I/O above 4GB功能(开启或关闭64位设备在大于4G地址空间的解码)。
- 确保全局设置中允许云主机热插拔GPU设备,若热插拔时出现硬件兼容性错误,或不支持该硬件设备时,建议关闭此功能。
- 确保高级设置云主机Hyper-V开关状态为false,否则云主机无法正常加载AMD vGPU驱动。
- 确保云主机CPU模式为host-passthrough。
- 获取相关驱动程序,相关驱动以及安装方法请联系GPU设备提供厂商获取帮助。
NVIDIA vGPU功能依赖CentOS 7.6版本内核,需使用c76版本ZStack ISO镜像版本安装 ,内核版本、QEMU版本需要v2.0及以上版本支持。
NVIDIA A系列显卡需要云平台升级至4.4.24及以上版本,物理机内核版本需要4.18.0以上 ,物理机gcc版本需要升级至8.3.1