深扒英伟达安培新架构，五大技术新招刀刀见血( 六 )

2020-05-29

标准PCIe连接因带宽有限，在多GPU系统中通常会造成瓶颈，高速、直接的GPU到GPU互联技术NVLink应运而生。
NVLink可将多个NVIDIA GPU连成一个巨型GPU来运行，从而在服务器上提供高效的性能扩展， A100使用NVLink的GPU到GPU带宽比PCIe快得多。

文章图片

A100中有12个第三代NVLink连接，每个差分信号线的速率可达到50 Gb/s ，几乎是V100的2倍。
每个NVLink链路在每个方向上有4对差分信号线，因此单向通信能力是50x4÷8=25 GB/s ，双向即50 GB/s 。 12个第三代NVLink的总带宽则可达到600 GB/s ，即V100的两倍。
相比之下，上一代V100中有6个NVLink ，每个NVLink每个方向上有8对差分信号线，总带宽为300 GB/s 。
每个GPU上的NVLink可高速连接到其他GPU和交换机，为了扩展到更大的系统，则需要NVIDIA NVSwitch将多个NVLink加以整合。
NVIDIA NVSwitch是以NVLink先进的通信能力为基础的节点交换架构，可在单个服务器节点中支持8到16个全互联GPU ，使得AI性能足以更高效地扩展到多个GPU 。

文章图片

第三代NVSwitch是一颗7nm芯片，包含60亿晶体管，有36个端口，是V100端口数目的2倍；总聚合带宽达9.6 TB/s ，是V100总聚合带宽的2倍。
NVLink和NVSwitch技术可提供更高带宽、更多链路，并提升多GPU系统配置的可扩展性，在搭载NVIDIA GPU的一系列板卡、服务器、超算产品中功绩斐然。
新NVIDIA DGX、HGX和EGX系统中的多个A100 GPU间均由第三代NVIDIA NVLink和NVSwitch实现高速通信。
以DGX A100为例，该设备中采用AMD Rome CPU、8颗A100 GPU、6颗NVSwitch芯片， 9个Mellanox ConnectX-6 200Gb/s网络接口。

文章图片

通过NVIDIA NVLink、NVSwitch及Mellanox最新InfiniBand和以太网解决方案连接，基于A100的系统可以扩展到数十、数百或数千个A100 ，用于计算集群、云实例或超大型超级计算机，从而满足多种类型的应用程序和工作负载的加速需求。

文章图片

结语：走向计算的下一纪元

从上一代被誉为“地表最强AI芯片”的V100 ，到新发布的安培架构GPU ，我们可以看到NVIDIA AI硬件思维逐渐向专用化方向倾斜。
尤其是GA100架构中的计算单元结构优化，包括支持新精度和结构化稀疏，本质上是在围绕AI和HPC的特性在做文章。
正如NVIDIA近年来所强调的，它已从一家纯粹的显卡公司进化为一系列AI与HPC计算解决方案的提供商。无论是计算与内存结构的升级，还是互联技术的迭代进化，都与NVIDIA积累的强大研究和工程能力密不可分。
这些技术进步所带来的更强算力，将催化AI、5G、数据科学、机器人、基因组学、金融分析等诸多领域的创新研究与应用进程。

推荐阅读

深扒全球仿生芯片计划！15+公司已入局，人造大脑通往未来计算之门

上一篇：老婆回家晚了半小时，老公脑补了一场大戏，还深夜报假警：我老婆被人扔河里了

下一篇：国内口罩价格腰斩，国外N95一个上千，「挖数」实地调查 | 网易号4月态度势力榜