深扒英伟达安培新架构，五大技术新招刀刀见血( 五 ) 两周前

文章图片

3、双精度FP64 DMMA
TF32主要用于加速AI运算，而HPC吞吐量的提升主要源自引入对经过IEEE认证的FP64精度的支持。
A100上的双精度矩阵乘法加法指令取代了V100上的8条DFMA指令，减少了指令取用、调度开销、寄存器读取、数据路径功率和shared memory读取带宽。
支持IEEE FP64精度后， A100 Tensor Core峰值算力可达19.5 TFLOPS ，是V100 FP64DFMA的2.5倍。

文章图片

文章图片

多实例GPU：将A100一分为七

A100是第一个内置弹性计算技术的多实例GPU（MIG ， Multi-Instance GPU）。
MIG可以把GPU做物理切割，由于A100上有7个GPU ，加之考虑到资源调度情况， A100最多可分割成7个独立的GPU实例。
如果将A100分成7个GPU实例， 1个GPU实例的算力约等同于一颗V100 ，也就是说A100能提供相当于V100的7倍的计算资源。

文章图片

MIG的核心价值是可以为不同类型的工作负载灵活提供规模适配的GPU资源。
如果不使用MIG ，同一GPU上运行的不同任务可能会争用相同的资源，挤占其他任务的资源，导致多项任务无法并行完成。
而使用MIG后，不同任务可以在不同的GPU实例上并行运行，每个实例都拥有各自专用的SM、内存、L2缓存和带宽，从而实现可预测的性能，并尽可能提升GPU利用率。

文章图片

这为工作负载提供稳定可靠的服务质量和有效的故障隔离，假设某一实例上运行的应用出现故障，不会影响到其他实例上运行的任务。
管理人员还可动态地重新配置MIG实例，比如白天用7个MIG实例做低吞吐量推理，夜间将其重新配置成一个大型MIG实例做AI训练。
这对拥有多租户用例的云服务提供商尤其有益，资源调度更加灵活，运行任务不会彼此影响，进一步增强安全性。