深扒英伟达安培新架构,五大技术新招刀刀见血( 五 )
文章图片
3、双精度FP64 DMMA
TF32主要用于加速AI运算 , 而HPC吞吐量的提升主要源自引入对经过IEEE认证的FP64精度的支持 。
A100上的双精度矩阵乘法加法指令取代了V100上的8条DFMA指令 , 减少了指令取用、调度开销、寄存器读取、数据路径功率和shared memory读取带宽 。
支持IEEE FP64精度后 , A100 Tensor Core峰值算力可达19.5 TFLOPS , 是V100 FP64DFMA的2.5倍 。
文章图片
文章图片
多实例GPU:将A100一分为七
A100是第一个内置弹性计算技术的多实例GPU(MIG , Multi-Instance GPU) 。MIG可以把GPU做物理切割 , 由于A100上有7个GPU , 加之考虑到资源调度情况 , A100最多可分割成7个独立的GPU实例 。
如果将A100分成7个GPU实例 , 1个GPU实例的算力约等同于一颗V100 , 也就是说A100能提供相当于V100的7倍的计算资源 。
文章图片
MIG的核心价值是可以为不同类型的工作负载灵活提供规模适配的GPU资源 。
如果不使用MIG , 同一GPU上运行的不同任务可能会争用相同的资源 , 挤占其他任务的资源 , 导致多项任务无法并行完成 。
而使用MIG后 , 不同任务可以在不同的GPU实例上并行运行 , 每个实例都拥有各自专用的SM、内存、L2缓存和带宽 , 从而实现可预测的性能 , 并尽可能提升GPU利用率 。
文章图片
这为工作负载提供稳定可靠的服务质量和有效的故障隔离 , 假设某一实例上运行的应用出现故障 , 不会影响到其他实例上运行的任务 。
管理人员还可动态地重新配置MIG实例 , 比如白天用7个MIG实例做低吞吐量推理 , 夜间将其重新配置成一个大型MIG实例做AI训练 。
这对拥有多租户用例的云服务提供商尤其有益 , 资源调度更加灵活 , 运行任务不会彼此影响 , 进一步增强安全性 。
文章图片
此外 , CUDA编程模式没有变化 , 容器中的AI模型和HPC应用可通过NVIDIA Container Runtime直接在MIG实例上运行 。
文章图片