GPU黄仁勋从煤气灶下取出最新GPU：7nm全新安培架构，售价20万美元，训练性能顶6张V100 晓查|贾浩楠|发自

晓查贾浩楠发自凹非寺
量子位报道 | 公众号 QbitAI
深黑的皮衣，苍白的头发。
熟悉的老黄又来了，但是少了宽敞的会场和粉丝的尖叫。

图片

因为美国疫情的原因，英伟达和其他科技公司一样，把今年的GPU技术大会（GTC 2020）改成线上举行。
然而让人意想不到的是，今年的GTC甚至都没有采用直播形式，而是直接一口气放出7段视频，还是黄仁勋在家提前录好的。偷懒程度可能仅次于苹果直接上架新品。
就算Zoom不安全，老黄你好歹用别的软件直播一下啊。
不知道是不是听过玩家圈里2080Ti煤气灶的梗，老黄昨天发了一段预热视频：在自家煤气灶下方取出了一个超大的的设备——一个装有8个GPU的服务器主板，号称全球最大图形卡。

图片

老黄的意思是不是说，这台GPU能热到和烤箱一样的程度呢。
从体积来看，这不可能是一台消费级显卡，难道RTX 3080没有了？
很遗憾，是的。
今年的GTC没有RTX系列游戏显卡的更新。但是已经服役3年的V100迎来了继任者，全新基于安培架构的专业级GPU——A100 。在AI训练这件事上，一片顶过去六片。

图片

这台AI运算性能怪兽进一步加强了张量运算能力，加入新的支持稀疏张量运算的张量核心，以后黄教主GPU似乎可以改称TPU了。
至于A100性能参数如何，下面开始详解。
首款安培架构GPU问世
V100的“V”代表Volta架构， A100的“A”则代表Ampere架构。
最新的A100 GPU集成了超过540亿个晶体管，这使它荣获全球最大尺寸的7nm制程处理器的称号。
黄教主解释道，如此高的集成度已经达到了现今半导体工艺的极限， A100是人类有史以来生产过的最大的处理器内核，也是人类有史以来集成度最高的计算机处理器。
英伟达大幅度提升了A100的张量计算核心（Tensor cores）的性能， FP32性能达到19.5万亿次/秒。包含6912个CUDA核心、40GB内存和1.6TB/s的内存带宽。

图片

但集成了如此优秀的性能的GPU ，你却不能用它来玩任何3A大作。
A100本身也不是游戏显卡。在单精度和双精度浮点算力上， A100相比V100提升不大，但是张量核心的运算能力有了很大的提高， FP16张量算力几乎是V100的2.5倍。
而且V100还新加入了对32位张量浮点运算（TF32）的支持，能更好地处理AI运算中的稀疏张量。
加入对稀疏张量的优化后， A100在FP16精度上的算力是V100的5倍，而在INT8上则提升了200倍！

图片

这次强大的张量核心，给A100在AI上带来了性能的飞跃。以NLP领域的BERT算法为例， A100 比 V100在训练速度上提升6倍，在推理速度上提升了7倍。

图片

显存带宽的提升也非常可观，多层HBM2内存可提供总计1.6 TB/s的带宽，比前代提升了78% 。
英伟达将把A100应用到堆栈AI系统，就是老黄前几天从自家烤箱中拿出来的那个「预热」好的GPU板。这个全新的堆栈AI系统称为DGX A100 ，集成了8块A100 。

图片

DGX A100系统能够达到5千万亿次/s的浮点计算性能。这要归功于这8颗A100 ，使用了Nvidia的第三代NVLink进行集成。

GPU黄仁勋从煤气灶下取出最新GPU：7nm全新安培架构，售价20万美元，训练性能顶6张V100

推荐阅读

历史|美股三连跌科技股领跌大盘

[数码小王]Pro有点像，还是双打孔曲面屏！荣耀30 Pro真机曝光，跟华为P40

海外网|8月30日全球疫情观察：至少16国日增确诊超千例印度单日确诊再现最大增幅

熟普洱的保存方法熟普洱保存和储藏方法

默叔说香水|库尔吉安乌木丝缎心情教科书式乌木玫瑰香

如何自己办理宠物托运宠物托运手续

天猫店新店考核不通过天猫店考核期指标没有达到怎么办

『车家号』95 km，加量不加价的宝马530Le增重后如何延续操控，纯电续航升至

中国新闻网|浙江龙泉发现国家二级保护动物阳彩臂金龟

公新翰@但最伤的是另一个决策！，QG四连跪的主要原因找到？没买最初很伤

黑喵游妮|阴阳师8月19日体验服更新总结为崽而战斗技中午时长变成2小时

生煎包|松江超嗲的生煎包大全，哪家是你最爱吃的？

宝宝躺着吃奶(躺着给宝宝喂奶好么？)

之夏|博山自闭症疗育中心获第四届“博山之夏”全民才艺大赛“特殊表演奖”

咽喉干燥可喝西洋参麦冬茶

大洋网|海关归类服务为企业年减关税逾千万元

女性冬季如何饮食养生？几款专属女性的养生食物

前无后有|工资太低而消费太低，该怎么办？，职场中的年轻人

提亮嫩肤秘方大公开，教你一键美白上岸

首席生活家开箱体验，智能方便：美的嵌入式蒸烤一体机BS5055W