vGPU设备实践

功能概述

随着虚拟化与云计算技术的快速发展，越来越多的用户将应用迁移到云上。在这个过程中，用户希望一些特定的业务场景既能够在云环境中获得灵活、高效的资源交付能力，又能够获取与物理机无异的资源计算性能。GPU作为一种资源设备，近几年来随着大数据、人工智能等深度学习相关应用的深入，这一技术在云中的应用需求日益加深。

ZStack Cloud云平台支持vGPU功能，通过GPU虚拟化技术，将物理GPU切割成更细粒度的 vGPU，形成vGPU资源池。用户可使用vGPU规格快速创建轻量的vGPU云主机，实现更灵活弹性的资源部署、提高资源利用率、以及节约成本。该功能适用于云游戏、VDI、VR/AR、AI推理以及机器学习教学等轻量级GPU计算场景。

支持对以下型号显卡进行虚拟化切割：

NVIDIA系列	AMD系列
Tesla T4	FirePro S7150
Tesla M10/M60	FirePro S7150X2
Tesla P100/P40/P6/P4	FirePro S7100X
RTX 6000/8000	FirePro S9050
Tesla V100	FirePro S9150
NVIDIA A系列	NULL

更多请参考NVIDIA官方文档，查询在GPU卡规格中查询是否支持vGPU。

最佳实践

物理机虚拟化GPU时选择vGPU型号时，需要根据使用目的以及云主机的计算量来进行选择合适的vGPU型号，一般可使用的vGPU型号与获取的License类型有关。
每次VGPU的云主机运行的时候都会向License服务器发起License授权请求，要保证License服务器正常使用，否则云主机有可能不能正常加载授权。当云主机处于关闭状态时不占用任何GRID License。

注意事项

确保物理机BIOS中开启Intel VT-d或AMD IOMMU功能，且物理机内核已开启IOMMU支持，且在物理机界面也同样需要开启IOMMU开关。
确保物理机BIOS中开启SR-IOV和Memory Mapped I/O above 4GB功能(开启或关闭64位设备在大于4G地址空间的解码)。
确保全局设置中允许云主机热插拔GPU设备，若热插拔时出现硬件兼容性错误，或不支持该硬件设备时，建议关闭此功能。
确保高级设置云主机Hyper-V开关状态为false，否则云主机无法正常加载AMD vGPU驱动。
确保云主机CPU模式为host-passthrough。
获取相关驱动程序，相关驱动以及安装方法请联系GPU设备提供厂商获取帮助。
NVIDIA vGPU功能依赖CentOS 7.6版本内核，需使用c76版本ZStack ISO镜像版本安装，内核版本、QEMU版本需要v2.0及以上版本支持。
NVIDIA A系列显卡需要云平台升级至4.4.24及以上版本，物理机内核版本需要4.18.0以上，物理机gcc版本需要升级至8.3.1

4.1.3.2 vGPU设备

vGPU设备实践

功能概述

最佳实践

注意事项

results matching ""

No results matching ""