深扒英伟达安培新架构,五大技术新招刀刀见血( 六 )


标准PCIe连接因带宽有限 , 在多GPU系统中通常会造成瓶颈 , 高速、直接的GPU到GPU互联技术NVLink应运而生 。
NVLink可将多个NVIDIA GPU连成一个巨型GPU来运行 , 从而在服务器上提供高效的性能扩展 , A100使用NVLink的GPU到GPU带宽比PCIe快得多 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

A100中有12个第三代NVLink连接 , 每个差分信号线的速率可达到50 Gb/s , 几乎是V100的2倍 。
每个NVLink链路在每个方向上有4对差分信号线 , 因此单向通信能力是50x4÷8=25 GB/s , 双向即50 GB/s 。 12个第三代NVLink的总带宽则可达到600 GB/s , 即V100的两倍 。
相比之下 , 上一代V100中有6个NVLink , 每个NVLink每个方向上有8对差分信号线 , 总带宽为300 GB/s 。
每个GPU上的NVLink可高速连接到其他GPU和交换机 , 为了扩展到更大的系统 , 则需要NVIDIA NVSwitch将多个NVLink加以整合 。
NVIDIA NVSwitch是以NVLink先进的通信能力为基础的节点交换架构 , 可在单个服务器节点中支持8到16个全互联GPU , 使得AI性能足以更高效地扩展到多个GPU 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

第三代NVSwitch是一颗7nm芯片 , 包含60亿晶体管 , 有36个端口 , 是V100端口数目的2倍;总聚合带宽达9.6 TB/s , 是V100总聚合带宽的2倍 。
NVLink和NVSwitch技术可提供更高带宽、更多链路 , 并提升多GPU系统配置的可扩展性 , 在搭载NVIDIA GPU的一系列板卡、服务器、超算产品中功绩斐然 。
新NVIDIA DGX、HGX和EGX系统中的多个A100 GPU间均由第三代NVIDIA NVLink和NVSwitch实现高速通信 。
以DGX A100为例 , 该设备中采用AMD Rome CPU、8颗A100 GPU、6颗NVSwitch芯片 , 9个Mellanox ConnectX-6 200Gb/s网络接口 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

通过NVIDIA NVLink、NVSwitch及Mellanox最新InfiniBand和以太网解决方案连接 , 基于A100的系统可以扩展到数十、数百或数千个A100 , 用于计算集群、云实例或超大型超级计算机 , 从而满足多种类型的应用程序和工作负载的加速需求 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

结语:走向计算的下一纪元

从上一代被誉为“地表最强AI芯片”的V100 , 到新发布的安培架构GPU , 我们可以看到NVIDIA AI硬件思维逐渐向专用化方向倾斜 。
尤其是GA100架构中的计算单元结构优化 , 包括支持新精度和结构化稀疏 , 本质上是在围绕AI和HPC的特性在做文章 。
正如NVIDIA近年来所强调的 , 它已从一家纯粹的显卡公司进化为一系列AI与HPC计算解决方案的提供商 。 无论是计算与内存结构的升级 , 还是互联技术的迭代进化 , 都与NVIDIA积累的强大研究和工程能力密不可分 。
这些技术进步所带来的更强算力 , 将催化AI、5G、数据科学、机器人、基因组学、金融分析等诸多领域的创新研究与应用进程 。


推荐阅读