深度学习|Adam又要“退休”了？耶鲁大学团队提出AdaBelief优化器 |优化器|AI|

晓查发自凹非寺
量子位报道 | 公众号 QbitAI
要挑战Adam地位的优化器又多了一个。
近日NeurIPS 2020收录论文提出的一个优化器，在深度学习社区成为焦点，引起广泛讨论。
这就是由耶鲁大学团队提出的AdaBelief 。团队在论文中表示，该优化器兼具Adam的快速收敛特性和SGD的良好泛化性。

本文插图

所谓AdaBelief ，是指根据梯度方向上的“信念”（Belief）来调整训练的步长。它和Adam在算法上的差别并不大。
二者差别在下面的算法实现上可以轻易看出。

本文插图

相比Adam ， AdaBelief没有引入任何其他新参数，只是在最后一步更新时有差异，已在上图中用蓝色标出。
Adam的更新方向是

本文插图

而AdaBelief的更新方向是

本文插图

vt和st的差别在于，后者是

本文插图

的指数移动平均（EMA）。
mt可以看做是gt的预测值，当实际值与预测值相差不大时，分母

本文插图

较小，步长较大，权重放心大胆迈开步子更新。
而实际值与预测值相差很大时， AdaBelief倾向于“不相信”当前梯度，此时分母较大，更新步长较短。
为什么AdaBelief更好
只做在最后一步做了了一个小小的改变，未审核会产生如此之大的影响呢？
这主要是因为AdaBelief考虑了两点。
1、损失函数的曲率问题
理想的优化器应该考虑损失函数的曲线，而不是简单地在梯度较大的地方下采取较大的步长。

本文插图

在“大梯度、小曲率”（图中区域3）情况下|gt-gt-1|和|st|很小，优化器应增加其步长。
2、分母中的梯度符号

本文插图

在上图损失函数为

本文插图

的情况下，蓝色矢量代表梯度，十字叉代表最优解。
Adam优化器在y方向上振荡，并在x方向上保持前进。这是由于

本文插图

在低方差情况下， Adam中的更新方向接近“符号下降” 。
而在AdaBelief中，

本文插图

因此AdaBelief在x方向上走了一大步，在y方向上只会走一小步，防止振荡产生。
实验结果
在简单的几种3维损失函数曲面上， AdamBelief展现出了优秀的性能。

本文插图

本文插图

图像分类

深度学习|Adam又要“退休”了？耶鲁大学团队提出AdaBelief优化器

推荐阅读

一波三折的《囧妈》，三赢一输的局面，精明的徐峥将输掉未来？

兮兮地么么哒|不愧是国足队长，39岁郑智今晚再现1世界级停球，强过太多国脚！

紫菜相思卷的做法

流泪|宋江爱流泪是出于义气深重，林黛玉爱流泪，又有何意图？

牙齿竟看出你是否衰老，应该怎么看？

南京交通广播|中考生负气出走，在高速公路上睡着了……

ZAKER娱乐|呲牙咧嘴凶神恶煞，网友：你吓唬谁呢？，沙溢为新电影做宣传

「科技思维」珍爱网“心灵视界”：以技术驱动高效婚恋

最强大脑|《最强大脑7》收官：相比娄云皓，其实陈智强更配“最佳拼搏奖”

ZAKER娱乐|关闭了美颜与滤镜，一个真美一个垮的厉害！，贾静雯与黄圣依同框

合作市|天津市滨海新区与合作市扶贫协作工作座谈会在合作召开

金钱里脊的做法

快科技 K30系列新成员入网：骁龙865加持极致性价比，Redmi

近3000名新生报到，中央民族大学“智慧迎新”

司马懿写了什么诗?关于司马的诗句

「街头健身」别人做一个引体向上都费劲，而“街健大神”却能负重120公斤

央视新闻客户端|引发国际社会广泛质疑与抨击，美国宣布终止与世卫组织关系

明星恋情|小八卦，关晓彤，杨幂，周冬雨，赵露思

北七家|昌平北七家“硝烟”散去，东小口“码农盘”火热对打

『孕妈』孕妈必备︱健荣凡士林霜，一款可以闭眼入手的润肤霜