超级计算机|主流显卡新架构,涵盖架构内容,优势以及具体应用( 二 )



超级计算机|主流显卡新架构,涵盖架构内容,优势以及具体应用
本文插图

英伟达最新架构 :安培“Ampere”架构
黄老板展示的安培(Ampere)架构 GPU 系统以最新英伟达 Tesla A100 芯片组成 , 被认为是迄今为止 GPU 算力最大的一步提升 , 据黄老板讲 , A100 是迄今为止人类制造出的最大 7 纳米制程芯片 。 A100 采用目前最先进的台积电(TSMC)7 纳米工艺 , 拥有 540 亿个晶体管 , 它是一块 3D 堆叠芯片 , 面积高达 826mm^2 , GPU 的最大功率达到了 400W 。

超级计算机|主流显卡新架构,涵盖架构内容,优势以及具体应用
本文插图

这块 GPU 上搭载了容量 40G 的三星 HBM2 显存(比 DDR5 速度还快得多 , 就是很贵) , 第三代 Tensor Core 。 同时它的并联效率也有了巨大提升 , 其采用带宽 600GB/s 的新版 NVLink , 几乎达到了 10 倍 PCIE 互联速度 。 随着安培架构出现的三代 Tensor Core 对稀疏张量运算进行了特别加速:执行速度提高了一倍 , 也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速系统会自动将数据转为 TF32 格式加速运算 , 现在你无需修改任何代码量化了 , 直接自动训练即可 。 GPC单元屏蔽了整整一组 , 但剩余的也并未全部开启 , 其中两组GPC也各自屏蔽了一个TPC(两组SM) , 导致总的SM单元为108个、流处理器为6912个、Tensor核心为432个 。 核心加速频率1410MHz , 比前两代其实都低了 , 但整体性能在飞跃 。 显存也没有逃过刀法 , 只开启了五组HBM2 , 所以总容量为40GB , 总位宽为5120-bit , 频率1215MHz , 带宽1555GB/s , 比上代增加73% 。

超级计算机|主流显卡新架构,涵盖架构内容,优势以及具体应用
本文插图

基于A100的系统可以扩展到数十、数百或数千个A100 , 用于计算集群、云实例或超大型超级计算机 , 从而满足多种类型的应用程序和工作负载的加速需求 。 尤其是GA100架构中的计算单元结构优化 , 包括支持新精度和结构化稀疏 , 本质上是在围绕AI和HPC的特性在做文章 。 正如NVIDIA近年来所强调的 , 它已从一家纯粹的显卡公司进化为一系列AI与HPC计算解决方案的提供商 。 无论是计算与内存结构的升级 , 还是互联技术的迭代进化 , 都与NVIDIA积累的强大研究和工程能力密不可分 。 这些技术进步所带来的更强算力 , 将催化AI、5G、数据科学、机器人、基因组学、金融分析等诸多领域的创新研究与应用进程 。 当许多公司还以超越NVIDIA V100算力为目标时 , NVIDIA已经冲向计算的下一个纪元 。

超级计算机|主流显卡新架构,涵盖架构内容,优势以及具体应用
本文插图

【超级计算机|主流显卡新架构,涵盖架构内容,优势以及具体应用】A100


推荐阅读