谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单( 二 )


在最新的 MLPerf 测试结果中 , 谷歌的 TPU 加速器也获得了很好的成绩:在预览和测试组别中 , TPU 集群打破了 8 项测试纪录中的 6 项 , 4096 块并联的 TPU v3 可以实现高达 430 PFLOPs 的峰值算力 , 训练 ResNet-50、BERT、Transformer、SSD 等模型都可以在 33 秒内完成 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

程序员大神 , 谷歌 AI 负责人 Jeff Dean 说道:「我们需要更大的基准测试 , 因为现在训练 ResNet-50、BERT、Transformer、SSD 这种模型只需要不到 30 秒了 。 」

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

谷歌与第二名在 6 项基准上的成绩比较 。
谷歌在本次 MLPerf 训练中使用的超级计算机比在之前比赛中创下三项记录的 Cloud TPU v3 Pod 大三倍 。 该系统包括 4096 个 TPU v3 芯片和数百台 CPU 主机 , 峰值性能超过 430 PFLOPs 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

在 4096 块 TPU 的加持下 , 谷歌的超级计算机可以在 33 秒内训练 ResNet-50、BERT、Transformer、SSD 等模型 。 在使用 TensorFlow 框架时 , 该计算机甚至可以将 BERT 的训练时间缩短到 23 秒 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

在谷歌最新的 ML 超级计算机上 , 上述所有模型的训练都可以在 33 秒内完成 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

谷歌还在最新的博客中透露了一些关于第四代 TPU 的信息 。 新一代 TPU 的矩阵乘法 TFLOPs 是上一代的两倍还多 , 内存带宽显著提高 , 还采用了新的互连技术 。 与 TPU v3 相比 , TPU V4 在芯片数量类似情况下的表现平均提高了 1.7 倍 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

最后 , 一些从业者也对深度学习框架在模型训练速度上的贡献表示感叹 。

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单
本文插图

看起来 , TensorFlow 2.0 的速度比 PyTorch 要快 , 谷歌最近开源的 TensorFlow 简化库 JAX 则效率更高 。 在工业应用上 , 我们对于框架的选择看来也要出现变化?
https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer
https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+nvidiablog+%28The+NVIDIA+Blog%29
【谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单】https://mlperf.org/training-results-0-7


推荐阅读