谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单( 二 ) |

在最新的 MLPerf 测试结果中，谷歌的 TPU 加速器也获得了很好的成绩：在预览和测试组别中， TPU 集群打破了 8 项测试纪录中的 6 项， 4096 块并联的 TPU v3 可以实现高达 430 PFLOPs 的峰值算力，训练 ResNet-50、BERT、Transformer、SSD 等模型都可以在 33 秒内完成。

本文插图

程序员大神，谷歌 AI 负责人 Jeff Dean 说道：「我们需要更大的基准测试，因为现在训练 ResNet-50、BERT、Transformer、SSD 这种模型只需要不到 30 秒了。」

本文插图

谷歌与第二名在 6 项基准上的成绩比较。
谷歌在本次 MLPerf 训练中使用的超级计算机比在之前比赛中创下三项记录的 Cloud TPU v3 Pod 大三倍。该系统包括 4096 个 TPU v3 芯片和数百台 CPU 主机，峰值性能超过 430 PFLOPs 。

本文插图

在 4096 块 TPU 的加持下，谷歌的超级计算机可以在 33 秒内训练 ResNet-50、BERT、Transformer、SSD 等模型。在使用 TensorFlow 框架时，该计算机甚至可以将 BERT 的训练时间缩短到 23 秒。

本文插图

在谷歌最新的 ML 超级计算机上，上述所有模型的训练都可以在 33 秒内完成。

本文插图

谷歌还在最新的博客中透露了一些关于第四代 TPU 的信息。新一代 TPU 的矩阵乘法 TFLOPs 是上一代的两倍还多，内存带宽显著提高，还采用了新的互连技术。与 TPU v3 相比， TPU V4 在芯片数量类似情况下的表现平均提高了 1.7 倍。

本文插图

最后，一些从业者也对深度学习框架在模型训练速度上的贡献表示感叹。

本文插图

看起来， TensorFlow 2.0 的速度比 PyTorch 要快，谷歌最近开源的 TensorFlow 简化库 JAX 则效率更高。在工业应用上，我们对于框架的选择看来也要出现变化？
https://cloud.google.com/blog/products/ai-machine-learning/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-supercomputer
https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+nvidiablog+%28The+NVIDIA+Blog%29
【谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单】https://mlperf.org/training-results-0-7

谷歌|谷歌训练BERT仅23秒,英伟达A100破八项AI性能纪录,最新MLPerf榜单( 二 )

推荐阅读

科龙空调好吗科龙空调质量怎么样

么么八卦|做事不卑不亢，一切喜欢随心的三个生肖，桀骜不驯

信息检索站资讯号 144Hz+AMOLED屏+骁龙765G，入手超值，5100mAh+双模5G再降300

初衣胜雪■风流晋永和？，诗词中三月三：为什么说富贵唐天宝

有更快的WiFi更有家庭云服务——360 WiFi6

财经思维|体育：门将以及后卫的位置是现在如今的利物浦的关键，BOB

#蛋蛋懂车#你只要负责好好享受就够了！全新宾利飞驰，这个级别的车

华为轮值董事长郭平：将继续投资海思，美国打压华为并非不可克服

中国五大中心城市是那五座城市

无现金生活，从无数小事开始

举杯敬朝阳：曾与吴镇宇同居8年，与何家劲相恋了3年，最终却选择嫁入豪门！，原创

未小沫|金晨近照曝光撞脸杨幂，妩媚曼妙长腿吸睛，恋爱中的女人果真美从默默无闻到事业开挂这一次爱情，有戏！恋爱中的女人，有多美！

人有做自己想做的事的权利吗

科技数码先生原来手机系统还能这样玩？上手OriginOS的我：涨姿势

家常回锅肉的做法

中国上海|上海市经济和信息化委员会关于开展2020年度市级设计引领示范企业创建工作的通知

白糖洗脸有什么好处，原来这才是正确方法

苹果仅卖四千多的5.4寸版iPhone12曝光，苹果刀法真精准！

新刊《神奇女侠2》登上《SFX》杂志新刊封面

太平洋电脑网 Z1手机：首发天玑1000＋跑分过53万，支持5g的iQOO