DT Value|NVIDIA安培GPU:从TOP500走向云智应用( 二 )



DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

A、B、C各有侧重又互有交叉 , 对基础架构提出的要求时有冲突 , 譬如:
精度:HPC和AI对计算能力的需求都非常高 , 但是侧重的方向有较大的区别 。 典型的科学计算应用对计算精度有很高的要求;AI应用则通常为了更快的得到结果 , 在满足准确度的前提下选择更低的计算精度 , 其中训练和推理过程对计算精度的容忍度又有不同 。
粒度:传统上高性能计算主要致力于将集群作为一个整体来处理一个或几个大型任务 , 每个物理节点只承担任务的一(小)部分;云计算的商业模式则追求将集群资源灵活的分配给不同用户 , 一个物理节点切分给多个用户或不同应用是常态 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

规模的层级和分配的颗粒度
当然 , 如果基础架构能提供足够的灵活性 , 鱼与熊掌并非不可兼得 。 譬如 , 日本国立先进工业科学技术研究所(AIST)号称世界上第一个大规模开放AI计算基础设施的ABCI(AI Bridging Cloud Infrastructure , 人工智能连接云基础设施) , 在适用于AI的半精度运算中可提供550 PFlops的性能 , 双精度计算的性能也有37 PFlops , 在2018年6月的Top500榜单中高居第5(这期榜单中的第1、3、5名都采用V100 GPU) , 当年8月起开始提供云服务 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

A100相对V100的全面提升
在V100的基础上 , A100在对AI、云计算方面的支持又有了明显的提升 , 还运用了多项(大)数据方面的技术 。 接下来我们就结合对A100系列产品的分析 , 来看看安培架构是如何集ABC之大成的 。
从8到1:A100的若干硬指标
A100是NVIDIA的第八代数据中心GPU , DGX/HGX A100支持8个A100 GPU;
全面转向7nm制程 , MIG支持7个GPU实例;
6.7倍的L2 Cache容量;
目前的A100是完全态的5/6;
DGX A100全面支持PCIe 4.0;
第三代Tensor Core , 第三代NVLink;
第二代NVSwitch , 2倍结构化稀疏性能 , 计算数据压缩2~4倍无损压缩 , 200Gb/s网卡;
1款GPU满足多种使用场景(ABC) , 不同使用模式(Scale-out和Scale-up) 。
与V100相比 , A100晶体管数量增加1.5倍多(542亿÷211亿=2.56) , 芯片面积(die size)却几乎没有变大(826mm2 vs. 815mm2) , 体现了制程从12nm升级到7nm的威力 , 为各项性能的巨大提升打下了坚实的基础 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

A100的5大法宝
可能有人对542亿晶体管和826mm2(平方毫米)没太多概念 , 那就拿A100的好基友、也采用台积电7nm制程的AMD第二代EPYC(代号Rome)处理器来做个对比 。 第二代EPYC采用所谓的Chiplet(小芯片)技术 , 最多由8个38亿晶体管、74mm2的CCD和1个83.4亿晶体管、416mm2的IOD组成 , 简单相加起来是387.4亿晶体管和1008mm2 , 也就是刚过七成的晶体管数量换来了更大的(总)芯片面积 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

AMD第二代EPYC处理器的芯片构成 , IO Die的制程应为14nm
当然 , 这样比对EPYC不够公平 , 因为晶体管数量最多的IO Die仍采用14nm(也有说12nm , 以前者为准)制程 , 芯片面积肯定吃亏 。 AMD这样做有很多理由 , 包括I/O器件从领先制程中获益较少 , 沿用成熟工艺更为划算 。 反过来也进一步证明 , 采用7nm制程的(小)芯片每个不到40亿晶体管、80多亿晶体管就要考虑7nm制程的投入产出比 , 看起来还是NVIDIA更为大胆 。


推荐阅读