nVIDIA|英伟达Ampere A100打破16项AI性能纪录 速度是Volta V100的4.2倍
英伟达刚刚公布了采用 Ampere 架构的 A100 GPU 的首份实际性能数据:可知其在特定的 AI 基准测试项目中一共打破了 16 项性能纪录,速度是 Volta V100 的 4.2 倍,较主要竞争对手取得了巨大的领先优势 。首先,2018 年面世的 MLPerf 主要侧重于机器学习性能 。该基准测试套件总共包括了八项测试,但英伟达 Ampere A100 GPU 的训练速度已经全面实现了超越 。
访问购买页面:
京东NVIDIA系列商品汇总
文章图片
(来自:Nvidia)
其次,英伟达分享了 DGX SuperPOD 系统取得的八项新纪录 。该系统通过 HDR InfiniBand 连接到一起,构成了一个庞大的 DGX A100 高性能计算系统集群 。
DGX SuperPod 由 140 个 DGX A100 系统组成,共计拥有 1120 个 NVIDIA Ampere A100 GPU、170 个 Mellanox Quantum 200G Infiniband 交换机、4 PB 存储空间、以及 15 公里的光缆 。
文章图片
令人赞叹的 DGX SuperPod 系统中包括大约 770 万个 Ampere CUDA 核心,作为 DGX V 扩展计划的一部分,其为该系统增加了近乎 700 Petaflops 的算力,目前已部署在加州圣克拉拉市的英伟达公司总部 。
文章图片
通过与上一代 Volta V100(以及谷歌第三代 TPU 和华为 Ascend HPC 等新品)进行比较,可知 Ampere A100 Tensor Core GPU 加速卡的性能增长也是相当惊人 。
此外在 MLPerf 基准测试套件的详细结果中,还对即将推出的 AI 加速方案进行了预览,比如英特尔的 Cooper Lake-SP 至强处理器、以及谷歌的第四代 TPU。
文章图片
MLPerf 表示,其基准测试套件可对机器学习(ML)和人工智能(AI)工作负载进行评估,结果发现 Ampere A100 性能是 Volta V100 的 2.5 倍 。即便是提升最小的项目,其领先幅度也有近 50%。
相比之下,华为 Ascend 芯片只能及时完成一项测试、且性能远不及 Volta V100。谷歌第三代 TPU 也只能及时完成两项测试,第一项较 Volta V100 领先 20%,第二项却又落后 10%。
文章图片
至于八槽的 Cooper Lake-SP 平台,其能够在 1104.53 分钟内完成图像分类测试项目,但是英伟达的双 Ampere A100 系统只需 33.37 分钟 。至于明年的谷歌第四代 TPU,目前尚不知晓其具有多大的优势 。
文章图片
【nVIDIA|英伟达Ampere A100打破16项AI性能纪录 速度是Volta V100的4.2倍】最后,英伟达展示了其 GPU 加速卡在 AI Full-Stack Innovations 项目中的表现 。上一代 Volta V100 平台的 MLPerf 0.5 基准测试项目对比,Ampere A100 平台上的的 MLPerf 0.7 基准测试有 4.2 倍的性能提升 。
推荐阅读
- nVIDIA|GeForce RTX 3080、3090完整规格曝光
- nVIDIA|GeForce RTX 3060显卡终于现身EEC数据库
- nVIDIA|[图]NVIDIA GeForce RTX 3090显卡淘宝上架 售价不菲
- nVIDIA|我预测了英伟达的发布会 - 关于RTX 30系的“一切”
- nVIDIA|NVIDIA 12针供电接口细节近照:比8针还要迷你
- nVIDIA|NVIDIA RTX 30大量细节官宣 12针供电没那么神秘
- 硬件|Q2季度GPU出货量报告:NVIDIA独显份额已达80%
- nVIDIA|NVIDIA官方确认:RTX 30首发V形电路板、12针供电接口
- nVIDIA|RTX 3090、3080搭档首发、最高24GB GDDR6X显存
- nVIDIA|NVIDIA MX450笔记本独显低调发布:显存可选GDDR6、首发PCIe 4.0