谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单( 二 )
在最新的 MLPerf 测试结果中 , 谷歌的 TPU 加速器也获得了很好的成绩:在预览和测试组别中 , TPU 集群打破了 8 项测试纪录中的 6 项 , 4096 块并联的 TPU v3 可以实现高达 430 PFLOPs 的峰值算力 , 训练 ResNet-50、BERT、Transformer、SSD 等模型都可以在 33 秒内完成 。
本文插图
程序员大神 , 谷歌 AI 负责人 Jeff Dean 说道:「我们需要更大的基准测试 , 因为现在训练 ResNet-50、BERT、Transformer、SSD 这种模型只需要不到 30 秒了 。 」
本文插图
谷歌与第二名在 6 项基准上的成绩比较 。
谷歌在本次 MLPerf 训练中使用的超级计算机比在之前比赛中创下三项记录的 Cloud TPU v3 Pod 大三倍 。 该系统包括 4096 个 TPU v3 芯片和数百台 CPU 主机 , 峰值性能超过 430 PFLOPs 。
本文插图
在 4096 块 TPU 的加持下 , 谷歌的超级计算机可以在 33 秒内训练 ResNet-50、BERT、Transformer、SSD 等模型 。 在使用 TensorFlow 框架时 , 该计算机甚至可以将 BERT 的训练时间缩短到 23 秒 。
本文插图
在谷歌最新的 ML 超级计算机上 , 上述所有模型的训练都可以在 33 秒内完成 。
本文插图
谷歌还在最新的博客中透露了一些关于第四代 TPU 的信息 。 新一代 TPU 的矩阵乘法 TFLOPs 是上一代的两倍还多 , 内存带宽显著提高 , 还采用了新的互连技术 。 与 TPU v3 相比 , TPU V4 在芯片数量类似情况下的表现平均提高了 1.7 倍 。
本文插图
最后 , 一些从业者也对深度学习框架在模型训练速度上的贡献表示感叹 。
本文插图
看起来 , TensorFlow 2.0 的速度比 PyTorch 要快 , 谷歌最近开源的 TensorFlow 简化库 JAX 则效率更高 。 在工业应用上 , 我们对于框架的选择看来也要出现变化?
https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer
https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+nvidiablog+%28The+NVIDIA+Blog%29
【谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单】https://mlperf.org/training-results-0-7
推荐阅读
- |将量子计算机当作神经网络,首次模拟化学反应,谷歌新研究登上Science封面
- KL|耐能发布全新AI芯片KL720 能效超过谷歌和英特尔
- 科学|谷歌量子计算登《科学》封面 量子模拟了化学反应
- 宣传|透过口号看真相:谷歌、苹果、麦当劳和 Zoom 真正的宗旨是什么?
- 谷歌|5G加速云游戏落地 手机体验3A大作将成现实
- 青年|打破后浪推前浪的魔咒,苹果 谷歌 iRobot们的秘密
- tiktok|谷歌否认计划收购TikTok 还说了什么?为什么不会收购TikTok什么原因?
- 苹果|科技早报|谷歌CEO否认收购TikTok贝佐斯财富超2000亿美元成历史第一人
- 美国|谷歌否认计划收购TikTok,软银或参与TikTok美国业务交易
- TikTok|谷歌CEO皮查伊确认没有收购TikTok的计划