深扒英伟达安培新架构,五大技术新招刀刀见血( 二 )
以多GPU配置的集成底板形式出现的服务器构建块HGX A100最高可以组成拥有10 PFLOPS算力的超大型8-GPU服务器 。
集成了8个A100的AI系统DGX A100单节点算力达5 PFLOPS , 售价19.9万美元 。
140个DGX A100系统组成的DGX SuperPOD集群 , AI算力达700 PFLOPS , 跻身世界上最快的20台AI超级计算机之列 。
NVIDIA自家的超算SATURNV在添加4个DGX SuperPOD后 , 总算力从1.8 ExaFLOPS增至4.6 ExaFLOPS , 增涨155%有余 。
这些奔着突破算力极限而去的性能参数 , 离不开以NVIDIA新一代安培架构为核心的五大关键技术的支持 。
文章图片
(1)安培架构:全球最大7nm芯片 , 拥有542亿个晶体管 , 采用40GB三星HBM2 , 内存带宽可达到1.6 Tbps 。
高带宽的HBM2内存和更大、更快的缓存为增加的CUDA Core和Tensor Core提供数据 。
(2)第三代Tensor Core:处理速度更快、更灵活 , TF32精度可将AI性能提升20倍 。
(3)结构化稀疏:进一步将AI推理性能提升2倍 。
(4)多实例GPU:每个GPU可分成7个并发实例 , 优化GPU利用率 。
(5)第三代NVLink和NVSwitch:高效可扩展 , 带宽较上一代提升2倍有余 。
黄仁勋介绍说 , 这是第一次能在一个平台上实现加速工作负载的横向扩展(scale out)和纵向扩展(scale up) 。
NVIDIA A100 GPU架构不仅可以加速大型复杂的工作负载 , 还可以有效地加速许多较小的工作负载 , 既能支持构建数据中心 , 同时可提供细粒度工作负载供应、更高的GPU利用率和改进的TCO 。
文章图片
GA100架构:内存容量更大、带宽更快
要在GPU上获得极致性能 , 对于CUDA人员来说可能更感兴趣的是GPU中的SM和内存子系统 。 我们可以从新一代GA100架构图中看到硬件结构的变化 。文章图片
▲GA100完整架构
图中上方是PCIe 4.0 , 带宽较PCIe 3.0增加1倍 , 使得GPU与CPU的通信速度更快 。 下方是12个高速连接NVLink 。
中间是SM和L2 Cache 。 可以看到 , 与V100不同 , A100中L2 Cache被分为两块 , 能提供的带宽也是V100的两倍 。
中间其他部分为计算和调度单元 , 包含8个GPC , 每个GPC内部有8个TPC , 每个TPC含两个SM 。 因此一个完整的GA100架构GPU有8x8x2=128个SM 。 每个SM中含有4个第三代Tensor Core , 即完整GA100架构GPU有512个Tensor Core 。
A100 GPU并不是完整版GA100架构芯片 , 包含了108个SM、432个Tensor Core 。 后期随着良品率的提升 , 我们或将看到更加完整的GA100架构GPU 。 与Volta、Turing架构相比 , 安培架构中每SM的计算能力增加了2倍 。
文章图片
▲GA100 Streaming Multiprocessor(SM)