深扒英伟达安培新架构，五大技术新招刀刀见血( 二 ) 两周前

以多GPU配置的集成底板形式出现的服务器构建块HGX A100最高可以组成拥有10 PFLOPS算力的超大型8-GPU服务器。
集成了8个A100的AI系统DGX A100单节点算力达5 PFLOPS ，售价19.9万美元。
140个DGX A100系统组成的DGX SuperPOD集群， AI算力达700 PFLOPS ，跻身世界上最快的20台AI超级计算机之列。
NVIDIA自家的超算SATURNV在添加4个DGX SuperPOD后，总算力从1.8 ExaFLOPS增至4.6 ExaFLOPS ，增涨155%有余。
这些奔着突破算力极限而去的性能参数，离不开以NVIDIA新一代安培架构为核心的五大关键技术的支持。

文章图片

（1）安培架构：全球最大7nm芯片，拥有542亿个晶体管，采用40GB三星HBM2 ，内存带宽可达到1.6 Tbps 。
高带宽的HBM2内存和更大、更快的缓存为增加的CUDA Core和Tensor Core提供数据。
（2）第三代Tensor Core：处理速度更快、更灵活， TF32精度可将AI性能提升20倍。
（3）结构化稀疏：进一步将AI推理性能提升2倍。
（4）多实例GPU：每个GPU可分成7个并发实例，优化GPU利用率。
（5）第三代NVLink和NVSwitch：高效可扩展，带宽较上一代提升2倍有余。
黄仁勋介绍说，这是第一次能在一个平台上实现加速工作负载的横向扩展（scale out）和纵向扩展（scale up）。
NVIDIA A100 GPU架构不仅可以加速大型复杂的工作负载，还可以有效地加速许多较小的工作负载，既能支持构建数据中心，同时可提供细粒度工作负载供应、更高的GPU利用率和改进的TCO 。

文章图片

GA100架构：内存容量更大、带宽更快

要在GPU上获得极致性能，对于CUDA人员来说可能更感兴趣的是GPU中的SM和内存子系统。我们可以从新一代GA100架构图中看到硬件结构的变化。

文章图片

▲GA100完整架构
图中上方是PCIe 4.0 ，带宽较PCIe 3.0增加1倍，使得GPU与CPU的通信速度更快。下方是12个高速连接NVLink 。
中间是SM和L2 Cache 。可以看到，与V100不同， A100中L2 Cache被分为两块，能提供的带宽也是V100的两倍。
中间其他部分为计算和调度单元，包含8个GPC ，每个GPC内部有8个TPC ，每个TPC含两个SM 。因此一个完整的GA100架构GPU有8x8x2=128个SM 。每个SM中含有4个第三代Tensor Core ，即完整GA100架构GPU有512个Tensor Core 。
A100 GPU并不是完整版GA100架构芯片，包含了108个SM、432个Tensor Core 。后期随着良品率的提升，我们或将看到更加完整的GA100架构GPU 。与Volta、Turing架构相比，安培架构中每SM的计算能力增加了2倍。