烤箱搬出最大显卡后,英伟达在厨房发布了7nm安培GPU
由于新冠肺炎疫情的影响 , 每年一度的GTC大会 , 今年采用了线上发布会的形式 , 而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨 , 将发布场地挪到了自家厨房 。 也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗 , 前两天的预热视频中 , 黄老板是从烤箱中扛出的此次发布会新品……
据黄仁勋介绍 , 他已经在家工作四十五天了 , 这次的演讲视频是在家里的厨房提前录制的 , 本次2020GTC的主题演讲和新品发布只用了用7个视频就完成了 , 也被他称作NVIDIA史上第一个“厨房Keynote” 。
文章图片
5月14日晚间 , 在NVIDIAGTC2020大会上 , 英伟达发布备受期待的7纳米(nm)工艺安培(Ampere)架构GPU , 以及基于该架构的两款EGX边缘AI平台产品 。 最后 , NVIDIA还发布了相应的第三代工作站DGXA100 , 也可以叫个人超级计算机 , 支持在桌面端进行AI研究 , 并扩展到云端 。
这次的GTC2020大会演讲中 , 黄仁勋主要谈的就是HPC计算、AI人工智能、自驾驶等方面的内容 。
世界上最大的7nmGPU
期盼已久的安培架构GPU——A100终于正式发布 , 跟2018年发布的上一代图灵(Turing)架构GPU一样 , 黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃 。
“A100是迄今为止人类制造出的最大7nm工艺芯片 , 集AI训练和推理于一身 , 并且其性能相比于前代产品提升了高达20倍 。 ”黄仁勋说 。 就具体参数来看 , A100采用目前最先进的台积电(TSMC)7nm工艺 , 拥有540亿个晶体管 , 而且是一块CoWoS3D堆叠芯片 , 这种封装专为科学计算 , 云图形和数据分析而构建 。 芯片面积高达826平方毫米 , GPU的最大功率达到400W 。
文章图片
它除了拥有6912个CUDA核心 , 还采用第三代张量计算核心(TensorCore) , 支持TF32运算 。 黄仁勋对此解释道 , 无需任何代码改变 , 就可以让FP32精度下的AI性能比上一代Volta架构提升20倍 , 达到19.5TFLOPS(万亿次/秒) 。 此外 , TensorCore还支持FP64双精度运算 , 与HPC应用相比带来了2.5倍的性能 。
文章图片
除了性能提升 , 安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速 。 “A100将在提高吞吐量的同时 , 降低数据中心的成本 。 ”黄仁勋说到 。
文章图片
凭借这些新功能 , 英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择 。
上一次英伟达发布如此性能强大的GPU芯片还是2017年的TeslaV100 。 在英伟达看来 , 自Volta架构的TeslaV100推出后 , 业界对AI模型训练算力的需求增长了3000倍 。 这显然也是英伟达放手增加算力和吞吐量的动力所在 , 而当时黄仁勋就强调英伟达未来的GPU将对训练、推理兼顾 , 这是革命性的突破 。
文章图片
今天看来 , 他兑现了自己三年前的承诺 。 如上图英伟达给出的数据显示 , A100对比前代TelsaV100 , 进行BERT模型训练性能提升了6倍 , BERT模型推理性能提升了7倍 。 可是以后应该管这个叫GPU还是TPU呢?
据介绍 , 安培将是NVDIA的新一代GPU核心 , 取代Turing和Volta架构 。 换言之 , NVIDIA新一代图形产品只有这一套核心 , 覆盖GeForce、Quadro、Tesla等 。
TeslaA100加速卡
首款基于A100GPU的产品是TeslaA100加速卡 , 据介绍 , 该卡支持第三代NVLINK , 与服务器的双向带宽为4.8TB/s , GPU到GPU的互连带宽为600GB/s 。 TeslaA100拥有40GB的HBM2内存 , 显存位宽为5120-bit , TDP为400W 。
文章图片
除了NVIDIA产品已经广泛采用的TensorCore核心 , TeslaA100还用到了新GPU的几个重要特性:
其一是多实例GPU-MG(Multi-instanceGPU , 简称MIG) , 这是一项创新技术 , 可以将一个GPU划分为七个独立的GPU , 针对不同的目标提供不同的运算 , 最大化提高计算效率 。
文章图片
第二是第三代NVIDIANVLink互联技术 , 能够将多个A100GPU合并成一个巨大的GPU来执行更大规模的训练任务 。
最后是结构化稀疏 , 这种全新效率技术利用AI数学固有的稀疏性 , 使性能提升了一倍 。
这几个技术的创新使得TeslaA100加速卡成为苛刻工作负载的理想选择 , 不仅可以用于AI推理、AI训练 , 还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等 。
DGX-A100超级计算机
文章图片
与此同时 , NVIDIA还宣布了基于TeslaA100的DGXA100超级计算机 , 有8路TeslaA100加速卡 , 性能高达5PFLOPS , 阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于DGXA100的云服务 。
黄仁勋表示 , “AI已经被应用到云计算、汽车、零售、医疗等众多领域 , AI算法也正变得越来越复杂和多样 。 ResNet模型的算力需求从2016年到现在已经增加了3000倍 , 我们需要更好的解决方案 。 ”
文章图片
DGX-A100搭载了AMD第二代EPYC“Rome”企业级处理器 , 两个AMDEPYC7742加起来总计128核/256线程 , 最高可达3.40GHzboost 。
DGXA100配备了八颗安培架构的TeslaA100GPU , 每一颗整合40GBHBM2高带宽(12.4TB/s)显存 , 总容量达320GB 。
据介绍 , 该系统除了具备10PETAFLOPS的运算性能外 , 也具备创纪录的5PETAFLOPSAI性能 。 每颗GPU均支持多达12路的NVLink互连总线 , GPU-GPU带宽高达600GB/s , 可保证八颗GPU彼此完全互连 , 同时还有6颗NVIDIANVSwitch芯片 , 双向带宽高达4.8TB/s 。
文章图片
不过从示意图上可以看出 , 每颗GPU周围其实有六颗HBM2显存芯片 , 很显然有一颗没有启用 , 剩下的五颗单颗容量8GB从而组成40GB 。
网络方面 , 配备了刚完成收购的MellanoxConnectX-6HDR200Gb/s网络接口 , 包括八颗单端口ConnectX-6VPI用于聚类 , 峰值性能200GB/s , 以及一颗双端口ConnectX-6VPI用于数据与存储网络 , 提供总计每秒3.6TB的双向带宽 。 MeLLanox网络计算和网络加速引擎 , 例如RDMA、GPUDirect,以及SHARP技术 , 实现最高性能和可扩展性 。
另外 , 利用A100的多实例GPU功能 , 每台DGXA100系统能够被分割为多达56个实例 , 用于加速多个小型工作负载的处理速度 。 凭借这些功能 , 企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源 , 加快数据分析、训练和推理等各种工作负载的速度 。
有趣的是 , 搭配的CPU处理器这次抛弃了Intel至强 , 改而使用两颗AMD二代霄龙(Rome) , 且是顶级的64核心型号 。 同时搭配1TBDDR4内存、15TBPCIeGen4.0NVMeSSD固态硬盘 , 速度比Gen3.0NVMeSSDs快2倍 。
黄仁勋称这它配备了“世界上最大的显卡” , 不算外壳单单是其中的计算板加散热器就有45斤的重量 , 集成超过3万个不同组件 , 钻孔数量多达100万个 , 连接电路长达1公里 。
NVIDIA宣称 , DGXA100相比于高端CPU服务器 , 它的AI计算性能要高出150倍 , 内存带宽高出40倍 , IO带宽也高出40倍 。
NVIDIADGXA100个人超算现已上市 , 售价19.9万美元(约合人民币141万元) 。
目前已经开始通过合作伙伴网络销售 , 包括DDNStorage , 戴尔 , IBM , NetApp , PureStorage和Vast等储存设备供应商也计划将NVIDIADGXA100整合到其产品内 。
而美国能源局的阿贡国家实验室(ArgonneNationalLaboratory)已经宣布采用DGXA100 , 该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎 。
文章图片
文章图片
黄仁勋说 , 通过一个价值100万美元由5个DGXA100系统组成的机架 , 可以取代当下价值1100万美元 , 由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心 。 并且 , 功耗也可以由630kW大幅降低至28kW 。
难怪云服务商们下单这么快 , 老省电费了 , 就像黄老板在发布会视频中说的:“你买得越多 , 你越省钱 。 ” 。
GPU+SoC扩展自动驾驶平台
自动驾驶芯片也是这次发布的重头戏 。
“自动驾驶汽车是我们这个时代面临的最大的计算挑战之一 。 ”黄仁勋说 , 为此英伟达也在全力推进NVIDIADRIVE平台迭代 。
而且这一次 , 不再是单纯的算力叠加游戏 , 英伟达将借助全新的安培GPU和即将推出Orin系统级芯片(SoC) , 对对DRIVEAGX平台进行扩展 , 范围覆盖从ADAS系统到DRIVEAGXPegasusRobotaxi平台 。 “既可以为前挡风玻璃提供5瓦的ADAS系统 , 还能将规模扩大到L5级Robotaxi系统 。 ”
文章图片
后者配备两个OrinSoC和两块NVIDIA安培GPU , 可实现每秒2000万亿次运算 , 超过上一代平台性能的6倍 。 同时 , 也能够缩小到入门级ADAS/Level2的案例 , 性能达到10TOPS , 功耗低至5W 。
据悉 , OrinSoC系列将于明年开始提供样品 , 在2022年下半年投入生产并向汽车制造商供应 , 为下一代可编程软件定义NVIDIADRIVEAGX系列奠定基础 。
此前 , 小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台 , 就昨天公布的信息来看 , 美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF91、小马智行都计划采用英伟达DRIVEAGXXavier平台 。
由于小鹏汽车与Xavier平台具有很强的架构兼容性 , 这家公司也在探索对NVIDIAOrin平台的应用机会 。
两款EGX边缘AI平台新品
NVIDIA还发布了两款边缘AI平台新品 , 据称能够在边缘提供安全、高性能的AI处理能力 。
EGXA100适用于较大型商业通用服务器 , 微型EGXJetsonXavierNX适用于微型边缘服务器 。 这两款产品能够在边缘提供安全、高性能的AI处理能力 , 适用于制造、零售、电信、医疗等多个行业 。
文章图片
黄仁勋介绍说 , EGXA100是首个基于NVIDIA安培架构的边缘AI产品 , 借助英伟达的MeLLanoxConnectX-6Dx板载网卡 , EGXA100可以每秒接收200Gb的数据并将其直接发送到GPU内存以进行AI或5G信号处理 。 实时处理来自摄像头和其他物联网传感器的大量流式数据 , 可以更快地获得洞见并提高业务效率 , 例如同时管理机场中的数百台摄像头 。
而EGXJetsonXavierNX则没有采用最新GPU , 但NVIDIA称其为全球体积最小、性能最强大的AI超级计算机 , 适用于微型服务器和边缘智能物联网盒 。 与被业界广泛采用的前代产品JetsonTX2相比 , JetsonXavierNX模块性能提高了10倍以上 。 通过运用云原生技术 , 开发人员即可利用这块仅有信用卡尺寸大小的高AI功能与高计算性能的模块 。 运行EGX云原生软件堆栈的EGXJetsonXavierNX可以快速处理来自多个高分辨率传感器的流式数据 , 例如管理便利店中的少量摄像头 。
具备云原生功能的JetsonXavierNX已获得嵌入式生态系统的支持 , 据悉合作伙伴已提供了超过20种解决方案 。 JetsonXavierNX开发者套件和JetsonXavierNX模块现正通过NVIDIA分销渠道进行发售 , 售价399美元 。
【烤箱搬出最大显卡后,英伟达在厨房发布了7nm安培GPU】责编:LuffyLiu
推荐阅读
- 成为下个美国?《柳叶刀》直言:巴西抗疫的最大威胁是总统
- 无限收割世界财富,美债“最大隐患”已显现?
- 曾是宋元明清四朝开采的采石场,今成浙江省规模最大的石窟景区
- 第五轮学科评估最大看点之重庆大学
- 一场波折的大胜,拜仁将面临争冠路上最大的挑战
- 这2样才是美国最大优势,中俄加起来才刚持平,20年内难以超越
- 阿兰归队时间曝光!国安将迎“最大牌球星”,1个坏消息影响争冠
- 别克君越从外观上来看,最大的特色就是远比上一代年轻
- 申生的疑惑:究竟谁才是朋友圈最大的那个人?
- 南京最大的公园,曾多次被破坏重建,今成5A级景区游客众多