DT Value|NVIDIA安培GPU:从TOP500走向云智应用( 六 )


个人认为 , A100对MIG的支持有望达到8个 , 因为现在的7个MIG , 涉及到的计算资源是7个GPC、49个TPC、98个SM , 而随着制造工艺的完善 , 未来A100 GPU要实现8个GPC和112个SM的“近完全态” , 并非没有可能 。
DGX & HGX:化繁为简 , 更小更强
如果说 , 在把GPU做“小” , 或曰Scale-out的方向上 , MIG是一项创新;那么 , 在把GPU做“大” , 或曰Scale-up的方向上 , A100也把传统曲目唱出了新意思 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

可大可小 , Scale-up与Scale-out通吃 , 训练、推理、数据分析都能干的单一平台
从衡量系统规模的几个重要参数上 , 与前一代基于Tesla V100的DGX-2相比 , DGX A100的GPU数量从16个打对折到8个 , GPU总内存容量从512GB下降至320GB , 系统内存容量从1.5TB下降至1TB 。 总之 , 看起来Scale非但没有up , 反而down了?

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

构成DGX A100核心的三大类芯片都采用7nm制程 , A100 GPU和CPU——AMD第二代EPYC处理器——前面都说过了 , 现在要说的是新一代NVSwitch , 同样基于台积电7nm制程 , 具有多达60亿晶体管 。 NVSwitch是以I/O为主的芯片 , 与第二代EPYC的IOD更具可比性 , 晶体管数量也相差不是太多 , 再一次体现了NVIDIA全面切换到7nm制程的“激进”态度 。
DGX-2开始将NVSwitch用于GPU的互连 , 初代NVSwitch有18个NVLink端口 , V100上有6个NVLink , 形成了6个NVSwitch把8个GPU连在一起的架构 。 NVSwitch上多出的NVLink可以用于彼此间的互连 , DGX-2一共用了12个NVSwitch芯片 , 将16个V100 GPU连为一体 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

部分得益于7nm制程 , 新一代NVSwitch的NVLink端口数量达到36个 , A100 GPU也有12个第三代NVLink , 总带宽600GB/s , DGX A100核心器件的这三项指标均为DGX-2的两倍 。 不过 , DGX A100和(采用NVSwitch的)HGX A100并没有借机扩大GPU的互连规模 , 反而退回到DGX-1的8个 , 致力于保证GPU之间的互连带宽 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

GPU的出口带宽增长了 , 对CPU及外部I/O的要求也随之提高 。 DGX-2配备双路24核处理器 , DGX A100则升级为双路64核处理器 , CPU核芯数量达到两倍以上 , 内存容量的减少可能与GPU数量的减半有关 。 第二代EPYC处理器的另一个杀手锏是支持PCIe 4.0 , 带宽两倍于PCIe 3.0 , 对存储和网络等I/O设备意义重大 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

众所周知 , NVIDIA已经完成了对Mellanox的收购 。 DGX A100配置了9个Mellanox ConnectX-6 200Gb/s网卡 , 这是什么概念呢?如果仍然使用PCIe 3.0 , 那么200Gb/s网卡就需要2个x16插槽支持才能充分发挥作用 , 而PCIe 4.0就只需要一个x16插槽 ,保证系统的复杂度不会增加 。
Mellanox ConnectX-6 200Gb/s InfiniBand/以太网卡:PCIe 3.0版本(上)需要占用2个x16插槽 , 而PCIe 4.0版本(下)只需要占用1个 , 复杂与简洁一望便知
系统配备的固态盘(SSD)同样支持PCIe 4.0 , 虽然容量也减半 , 至少存储性能可以保持 。
由于系统中占比很大的核心组件如GPU、NVSwitch、GPU基板的数量都减少了一半 , DGX A100的整体复杂性大为下降 , 高度也只有6U , 介于DGX-1(3U)和DGX-2(10U)之间 。 对于数据中心而言 , 更重要的是系统的供电需求 , 从DGX-2的10kW(千瓦) , 下降到6.5kW——仍高于DGX-1的3.5kW , 已经大幅降低了对机柜供电能力的要求 , 国内的很多数据中心不需要过多的调整即可满足 。


推荐阅读