GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100

晓查 贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI
深黑的皮衣 , 苍白的头发 。
熟悉的老黄又来了 , 但是少了宽敞的会场和粉丝的尖叫 。
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

因为美国疫情的原因 , 英伟达和其他科技公司一样 , 把今年的GPU技术大会(GTC 2020)改成线上举行 。
然而让人意想不到的是 , 今年的GTC甚至都没有采用直播形式 , 而是直接一口气放出7段视频 , 还是黄仁勋在家提前录好的 。 偷懒程度可能仅次于苹果直接上架新品 。
就算Zoom不安全 , 老黄你好歹用别的软件直播一下啊 。
不知道是不是听过玩家圈里2080Ti煤气灶的梗 , 老黄昨天发了一段预热视频:在自家煤气灶下方取出了一个超大的的设备——一个装有8个GPU的服务器主板 , 号称全球最大图形卡 。
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

老黄的意思是不是说 , 这台GPU能热到和烤箱一样的程度呢 。
从体积来看 , 这不可能是一台消费级显卡 , 难道RTX 3080没有了?
很遗憾 , 是的 。
今年的GTC没有RTX系列游戏显卡的更新 。 但是已经服役3年的V100迎来了继任者 , 全新基于安培架构的专业级GPU——A100 。 在AI训练这件事上 , 一片顶过去六片 。
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

这台AI运算性能怪兽进一步加强了张量运算能力 , 加入新的支持稀疏张量运算的张量核心 , 以后黄教主GPU似乎可以改称TPU了 。
至于A100性能参数如何 , 下面开始详解 。
首款安培架构GPU问世
V100的“V”代表Volta架构 , A100的“A”则代表Ampere架构 。
最新的A100 GPU集成了超过540亿个晶体管 , 这使它荣获全球最大尺寸的7nm制程处理器的称号 。
黄教主解释道 , 如此高的集成度已经达到了现今半导体工艺的极限 , A100是人类有史以来生产过的最大的处理器内核 , 也是人类有史以来集成度最高的计算机处理器 。
英伟达大幅度提升了A100的张量计算核心(Tensor cores)的性能 , FP32性能达到19.5万亿次/秒 。 包含6912个CUDA核心、40GB内存和1.6TB/s的内存带宽 。
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

但集成了如此优秀的性能的GPU , 你却不能用它来玩任何3A大作 。
A100本身也不是游戏显卡 。 在单精度和双精度浮点算力上 , A100相比V100提升不大 , 但是张量核心的运算能力有了很大的提高 , FP16张量算力几乎是V100的2.5倍 。
而且V100还新加入了对32位张量浮点运算(TF32)的支持 , 能更好地处理AI运算中的稀疏张量 。
加入对稀疏张量的优化后 , A100在FP16精度上的算力是V100的5倍 , 而在INT8上则提升了200倍!
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

这次强大的张量核心 , 给A100在AI上带来了性能的飞跃 。 以NLP领域的BERT算法为例 , A100 比 V100在训练速度上提升6倍 , 在推理速度上提升了7倍 。
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

显存带宽的提升也非常可观 , 多层HBM2内存可提供总计1.6 TB/s的带宽 , 比前代提升了78% 。
英伟达将把A100应用到堆栈AI系统 , 就是老黄前几天从自家烤箱中拿出来的那个「预热」好的GPU板 。 这个全新的堆栈AI系统称为DGX A100 , 集成了8块A100 。
GPU黄仁勋从煤气灶下取出最新GPU:7nm全新安培架构,售价20万美元,训练性能顶6张V100
图片

DGX A100系统能够达到5千万亿次/s的浮点计算性能 。 这要归功于这8颗A100 , 使用了Nvidia的第三代NVLink进行集成 。


推荐阅读