数码实验室|Adam又要“退休”了?耶鲁大学团队提出AdaBelief
晓查发自凹非寺量子位报道|公众号QbitAI
要挑战Adam地位的优化器又多了一个 。
近日NeurIPS2020收录论文提出的一个优化器 , 在深度学习社区成为焦点 , 引起广泛讨论 。
这就是由耶鲁大学团队提出的AdaBelief 。 团队在论文中表示 , 该优化器兼具Adam的快速收敛特性和SGD的良好泛化性 。
文章图片
所谓AdaBelief , 是指根据梯度方向上的“信念”(Belief)来调整训练的步长 。 它和Adam在算法上的差别并不大 。
二者差别在下面的算法实现上可以轻易看出 。
文章图片
相比Adam , AdaBelief没有引入任何其他新参数 , 只是在最后一步更新时有差异 , 已在上图中用蓝色标出 。
Adam的更新方向是
文章图片
而AdaBelief的更新方向是
文章图片
vt和st的差别在于 , 后者是
文章图片
的指数移动平均(EMA) 。
mt可以看做是gt的预测值 , 当实际值与预测值相差不大时 , 分母
文章图片
较小 , 步长较大 , 权重放心大胆迈开步子更新 。
而实际值与预测值相差很大时 , AdaBelief倾向于“不相信”当前梯度 , 此时分母较大 , 更新步长较短 。
为什么AdaBelief更好
只做在最后一步做了了一个小小的改变 , 未审核会产生如此之大的影响呢?
这主要是因为AdaBelief考虑了两点 。
1、损失函数的曲率问题
理想的优化器应该考虑损失函数的曲线 , 而不是简单地在梯度较大的地方下采取较大的步长 。
文章图片
在“大梯度、小曲率”(图中区域3)情况下|gt-gt-1|和|st|很小 , 优化器应增加其步长 。
2、分母中的梯度符号
文章图片
在上图损失函数为
文章图片
的情况下 , 蓝色矢量代表梯度 , 十字叉代表最优解 。
Adam优化器在y方向上振荡 , 并在x方向上保持前进 。 这是由于
文章图片
在低方差情况下 , Adam中的更新方向接近“符号下降” 。
而在AdaBelief中 ,
文章图片
因此AdaBelief在x方向上走了一大步 , 在y方向上只会走一小步 , 防止振荡产生 。
实验结果
在简单的几种3维损失函数曲面上 , AdamBelief展现出了优秀的性能 。
文章图片
文章图片
图像分类
在CIFAR-10和CIFAR-100数据集上 , 用VGG11、ResNet34和DenseNet121三种网络进行训练 , AdaBelief都显示出更好的收敛结果 。
而且在ImageNet数据上 , AdaBelief在Top-1准确率上仅次于SGD 。
推荐阅读
- 极酷数码客|价格很有优势,雷军刚发布行业领先技术!小米新机紧接被曝光
- 数码八叔|迎米粉最期待的功能,你收到没?,MIUI12稳定版已升13版
- 数码小妖精|苹果跌至第二,新王者诞生,中国高端手机市场洗牌:小米崭露头角
- S手机科技鑫空影视K|最便宜65W?,数码科技:一加8T/realmeQ2Pro手机首销战报出炉
- 智Phone云|Enco X,一句话点评亮了,数码大V提前上手OPPO
- 飞翔数码科技|彩屏配置,随时随地打理精致面容,须眉科技上新小钢鲨
- 数码知事|现在疯狂降价,但依旧无人购买,最惨游戏手机
- 数码影里斩春风|无线快充:Nank南卡无线充电宝POW2开箱,细腻实用
- 怪客数码|现在来说说该机的优点和缺点!,一加8T真机体验三天以后
- 数码八叔|这项手机新技术全球领先,比苹果iPhone还先进2年,小米又引航了