搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款


作者:张倩、小舟
在一篇 NeurIPS 2020 Spotlight 论文中 , 来自耶鲁大学等机构的研究者提出了一种新型优化器 , 可以像 Adam 一样快速收敛 , 准确率媲美 SGD, 还能稳定训练 GAN。
搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
本文图片

最常用的深度学习优化器大致可分为自适应方法(如Adam)和加速方案(如带有动量的随机梯度下降(SGD)) 。 与 SGD 相比 , 许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快 , 但泛化效果却较差 。 对于生成对抗网络(GAN)这类的复杂情况 , 通常默认使用自适应方法 , 因为其具有稳定性 。
在 NeurIPS 2020 的一篇 Spotlight 论文中 , 来自耶鲁大学、伊利诺伊大学香槟分校等机构的研究者提出了一种名为「AdaBelief」的新型优化器 , 可以同时满足 3 个优点:自适应方法的快速收敛、SGD 的良好泛化性、训练稳定性 。 论文代码也已经放出 。
搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
本文图片
【搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款】

  • 论文链接: https://arxiv.org/pdf/2010.07468.pdf
  • 论文页面: https://juntang-zhuang.github.io/adabelief/
  • 代码链接: https://github.com/juntang-zhuang/Adabelief-Optimizer
AdaBelief 根据当前梯度方向上的「belief」来调整步长 , 将嘈杂梯度的指数移动平均(EMA)当作下一步的梯度预测 。 如果观察到的梯度大大偏离了预测 , 那么就不信任当前的观察 , 采取一个较小的步长;如果观察到的梯度接近预测值 , 那么就相信当前的观察 , 并采取一个较大的步长 。
研究者用实验验证了 AdaBelief 的效果 。 在图像分类和语言建模方面 ,AdaBelief 收敛迅速 , 准确率高 , 性能优于其他方法 。 具体来说 , 在 ImageNet 上 ,AdaBelief 的准确率可与 SGD 媲美 。
此外 , 在 Cifar10 上训练 GAN 期间 , 与经过调整的 Adam 优化器相比 ,AdaBelief 表现出了高度稳定性并提高了生成样本的质量 。
算法
搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
本文图片

Adam和AdaBelief的算法如上图所示 , 不同之处已经用蓝色字体标注 。 从图中可以看出 , AdaBelief没有引入额外的参数 。 为了简便 , 研究者省略了偏置矫正步骤 。 具体来说 , 在Adam中 , 更新方向是
搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
本文图片

,其中 , v_t是 的指数移动平均值(EMA) 。 在AdaBelief中 , 更新方向是
搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
本文图片

, 其中 , s_t是 (g_t?m_t)^2的EMA 。 直观来看 , 将m_t看作g_t的预测 , 当观察结果g_t与预测结果m_t接近时 , AdaBelief步长较大;当g_t与m_t相差较大时 , AdaBelief步长较小 。
AdaBelief 好在哪儿?
AdaBelief考虑了损失函数的曲率
搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
本文图片

一个理想的优化器会考虑损失函数的曲率 , 而不是在梯度很大(或很小)的地方采取很大(或很小)的步长 。 上图中的区域③展示了AdaBelief在「梯度大 , 曲率小」的情况下相较于Adam的优势 。
在这种情况下 , |g_t|和v_t都很大 , 但|g_t?g_[t?1]|和s_t都很小 。 发生这种情况是因为学习率α很小 。 此时 , 理想的优化器应该增加步长 。 SGD采用了一个很大的步长(~ α|g_t|);在Adam中 , 分母v_t很大 , 因此步长很小;而在AdaBelief中 , 分母s_t很小 , 因此步长和理想优化器一样大 。


推荐阅读