搜狐新闻|速度堪比Adam，准确率媲美SGD，还能稳定训练GAN：全新优化器成为NeurIPS爆款

作者：张倩、小舟
在一篇 NeurIPS 2020 Spotlight 论文中，来自耶鲁大学等机构的研究者提出了一种新型优化器，可以像 Adam 一样快速收敛，准确率媲美 SGD，还能稳定训练 GAN。

本文图片

最常用的深度学习优化器大致可分为自适应方法（如Adam）和加速方案（如带有动量的随机梯度下降（SGD））。与 SGD 相比，许多模型（如卷积神经网络）采用自适应方法通常收敛速度更快，但泛化效果却较差。对于生成对抗网络（GAN）这类的复杂情况，通常默认使用自适应方法，因为其具有稳定性。
在 NeurIPS 2020 的一篇 Spotlight 论文中，来自耶鲁大学、伊利诺伊大学香槟分校等机构的研究者提出了一种名为「AdaBelief」的新型优化器，可以同时满足 3 个优点：自适应方法的快速收敛、SGD 的良好泛化性、训练稳定性。论文代码也已经放出。

本文图片
【搜狐新闻|速度堪比Adam，准确率媲美SGD，还能稳定训练GAN：全新优化器成为NeurIPS爆款】

论文链接： https://arxiv.org/pdf/2010.07468.pdf
论文页面： https://juntang-zhuang.github.io/adabelief/
代码链接： https://github.com/juntang-zhuang/Adabelief-Optimizer

AdaBelief 根据当前梯度方向上的「belief」来调整步长，将嘈杂梯度的指数移动平均（EMA）当作下一步的梯度预测。如果观察到的梯度大大偏离了预测，那么就不信任当前的观察，采取一个较小的步长；如果观察到的梯度接近预测值，那么就相信当前的观察，并采取一个较大的步长。
研究者用实验验证了 AdaBelief 的效果。在图像分类和语言建模方面，AdaBelief 收敛迅速，准确率高，性能优于其他方法。具体来说，在 ImageNet 上，AdaBelief 的准确率可与 SGD 媲美。
此外，在 Cifar10 上训练 GAN 期间，与经过调整的 Adam 优化器相比，AdaBelief 表现出了高度稳定性并提高了生成样本的质量。
算法

搜狐新闻|速度堪比Adam，准确率媲美SGD，还能稳定训练GAN：全新优化器成为NeurIPS爆款

本文图片

Adam和AdaBelief的算法如上图所示，不同之处已经用蓝色字体标注。从图中可以看出， AdaBelief没有引入额外的参数。为了简便，研究者省略了偏置矫正步骤。具体来说，在Adam中，更新方向是

本文图片

，其中， v_t是的指数移动平均值（EMA）。在AdaBelief中，更新方向是

本文图片

，其中， s_t是 (g_t?m_t)^2的EMA 。直观来看，将m_t看作g_t的预测，当观察结果g_t与预测结果m_t接近时， AdaBelief步长较大；当g_t与m_t相差较大时， AdaBelief步长较小。
AdaBelief 好在哪儿？
AdaBelief考虑了损失函数的曲率