谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单


机器之心报道
编辑:泽南、张倩在最新的 MLPerf 基准测试结果中 , 英伟达新出的 A100 GPU 打破了八项 AI 性能纪录 , 谷歌的 4096 块 TPU V3 将 VERT 的训练时间缩短到了 23 秒 。 华为昇腾 910 这次也跑了个分 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

在距离推出不到一个月的时间里 , 内置超过 2000 块英伟达 A100 GPU 的全新 DGX SuperPOD 服务器就在各项针对大规模计算性能的 MLPerf 基准测试中取得了优异成绩 。
在今天官方发布的 MLPerf 第三批 AI 训练芯片测试结果中 , 英伟达 A100 Tensor Core GPU 在全部八项基准测试中展现了最快性能 。 在实现总体最快的大规模解决方案方面 , 利用 HDR InfiniBand 实现多个 DGX A100 系统互联的服务器集群 DGX SuperPOD 系统也同样创造了业内最优性能 。
行业基准测试组织 MLPerf 于 2018 年 5 月由谷歌、百度、英特尔、AMD、哈佛和斯坦福大学共同发起 , 目前已成为机器学习领域芯片性能的重要参考标准 。 此次结果已是英伟达在 MLPerf 训练测试中连续第三次展现了最强性能 。 早在 2018 年 12 月 , 英伟达就曾在 MLPerf 训练基准测试中创下了六项纪录 , 次年 7 月英伟达再次创下八项纪录 。
最新版的 MLPerf 基准测试包含 8 个领域的 8 项测试 , 分别为目标检测(light-weight、heavy-weight)、翻译(recurrent、non-recurrent)、NLP、推荐系统、强化学习 , 参与测试的模型包括 SSD、Mask R-CNN、NMT、BERT 等 。 MLPerf 在强化学习测试中使用了 Mini-go 和全尺寸 19×19 围棋棋盘 。 该测试是本轮最复杂的测试 , 内容涵盖从游戏到训练的多项操作 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

在最新的测试中 , 英伟达送交的服务器配置和测试结果使用了最新一代的安培(Ampere)架构 , 以及目前较为流行的 Volta 架构 V100 芯片 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

英伟达表示 , 在评测结果中 , 自己是唯一一家在所有测试中均采用市售商用产品的公司 。 其他厂家大多数提交使用的要么是预览类别(Preview , 其所用产品预计几个月后才会面市) , 要么使用的是仍在研究中的产品 。
安培架构 , 市场采用速度刷新纪录
今年 5 月在 GTC 大会上正式发布的 A100 是首款基于安培架构的处理器 , 它不仅打破了 GPU 性能纪录 , 其进入市场的速度也比以往任何英伟达 GPU 更快 。 A100 在发布之初用于 NVIDIA 的第三代 DGX 系统 , 正式发布仅六周后就正式登陆谷歌云服务系统 。
目前 , AWS、百度云、微软 Azure 和腾讯云等全球云提供商 , 以及戴尔、惠普、浪潮和超微等数十家主要服务器制造商 , 均已推出基于 A100 的云服务或服务器产品 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

英伟达 A100 在 MLPerf 单卡性能名列前茅的全部八项测试 , 最新的 MLPerf 榜单中还有华为昇腾 910 的成绩 。
英伟达 GPU 性能的提升不仅来自硬件 。 测试结果显示 , 相较于首轮 MLPerf 训练测试中使用的基于 V100 GPU 的系统 , 如今的 DGX A100 系统能够以相同的吞吐率 , 实现高达 4 倍的性能提升 。 同时 , 得益于最新的软件优化 , 基于 NVIDIA V100 的 DGX-1 系统亦可实现高达 2 倍的性能提升 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

谷歌:我们成绩太好 , 基准测试需要换了


推荐阅读