人走茶凉|UC伯克利尤洋189页博士论文公布，聚焦快速机器学习训练算法机器之心报道

机器之心报道
编辑：蛋酱、小舟
这份189页的博士学位论文，凝结了尤洋在快速机器学习训练算法领域的研究心血。
过去十年，深度学习应用领域的数据量迅速增长，使得深度神经网络（DNN）的训练时间拉长。而这已经成为机器学习开发者和研究者面临的瓶颈问题。例如，在8个P100GPU上完成90个epoch的ImageNet/ResNet-50训练需要29个小时，在16个v3TPU芯片上完成BERT预训练需要81个小时。
因此，如何有效缩短机器学习训练时间，同时完成高质量的训练，对于解决当前的瓶颈问题具有重大意义。
本文将介绍一篇长达189页的博士学位论文，作者为加州大学伯克利分校计算机系的尤洋博士。
尤洋曾以一作的身份获得2018年国际并行处理大会（ICPP）最佳论文奖，论文《Imagenettraininginminutes》所提出的方法刷新了ImageNet训练速度的世界纪录。
此外，尤洋还获得过国际并行与分布式处理大会（IPDPS）2015的最佳论文奖。他还曾在IBM沃森研究中心、英特尔总部、英伟达总部、微软总部以及谷歌总部实习。
今年7月，尤洋从加州大学伯克利分校毕业，获得计算机科学博士学位。目前已入职新加坡国立大学计算机系任助理教授（终身制）。近日，他在社交媒体上介绍了自己的博士论文。
论文链接：
接下来，我们将简要介绍这篇博士论文的核心内容，感兴趣的读者可以阅读原论文。
论文核心内容简介
这篇论文聚焦于快速且准确的机器学习训练。尽管生产团队希望能够充分利用超级计算机来加快训练过程，但传统的优化器无法扩展到数千个处理器。该研究设计了一系列基础优化算法，来为深度学习系统实现更强的并行度。这些算法为谷歌、英特尔、腾讯、英伟达等公司的SOTA分布式系统提供了支持。
这篇论文的重点是缩小高性能计算（HPC）和机器学习（ML）之间的差距。
2017年， HPC和ML之间存在着巨大的差距。一方面，功能强大的超级计算机已经出现，每秒可执行2×1017次浮点运算。但另一方面，我们却无法充分运用此算力的1%来训练SOTA机器学习模型。原因是超级计算机需要极高的并行度才能达到峰值性能。但是，高度的并行会导致ML优化器的收敛性很差。
为了解决这个问题，尤洋及合作者提出了LARS优化器、LAMB优化器以及CA-SVM框架，缩小了机器学习与分布式系统之间的差距。
这篇论文的主要贡献是：「在增加并行度的同时，根据需要改动算法，从而通过避免通信来保持效率。」为了做到这一点，研究者需要根据需求改动算法和/或超参数，或使用不同的近似解来维持准确率。

人走茶凉|UC伯克利尤洋189页博士论文公布，聚焦快速机器学习训练算法

推荐阅读

何炅|当年何炅亲自挑的“四小天鹅”，前三位都“凉凉了”，不起眼的她却红到发紫

华创|100股连续5天遭融资净卖出

喜欢的女生老找自己帮忙，要不要拒绝

上海崇明|崇明又一世界级农业创新园即将投产

「新华网」以色列利库德集团选党首内塔尼亚胡面临挑战

希腊有哪些著名的旅游景点

中超|失业后被中超鲁能引进，从加盟到走人无任何机会，24岁已去业余队

新基建火热新基建火热，浩辰CAD助力添加强劲动能

中年Python简化代码机器学习库PyCaret 2.0发布

荣耀游戏本最快7月份上市赵明曾表态：非常惊艳

索尼|1英寸怪兽级大底！索尼Xperia PRO-I今天预售：10999元

裴涩琪|韩国这档9.3分综艺，得亏已经停播！这节目放在现在，不敢想象

听风说旧人|入门就配全时四驱，途锐真是女生眼中的破大众？，大众版“陆巡”

星了个星座|情史最丰富的4个星座，盘点：十二星座中

大量新鲜桑葚怎么保存

央视网|“双节”同庆家国同心

小时候|5种小时候坚决不吃，现在却觉得“真香”的菜，你中了几个？

虎扑体育|目前有 72 名大学球员及 36 名国际新秀预计参加本届选秀

汪小菲|汪小菲高调炫富，晒出天价豪宅，具俊晔根本没实力买得起

房价|涨涨涨！这里的房价创纪录！两年涨了近三成！咋回事？