搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款
作者:张倩、小舟
在一篇 NeurIPS 2020 Spotlight 论文中 , 来自耶鲁大学等机构的研究者提出了一种新型优化器 , 可以像 Adam 一样快速收敛 , 准确率媲美 SGD, 还能稳定训练 GAN。
本文图片
最常用的深度学习优化器大致可分为自适应方法(如Adam)和加速方案(如带有动量的随机梯度下降(SGD)) 。 与 SGD 相比 , 许多模型(如卷积神经网络)采用自适应方法通常收敛速度更快 , 但泛化效果却较差 。 对于生成对抗网络(GAN)这类的复杂情况 , 通常默认使用自适应方法 , 因为其具有稳定性 。
在 NeurIPS 2020 的一篇 Spotlight 论文中 , 来自耶鲁大学、伊利诺伊大学香槟分校等机构的研究者提出了一种名为「AdaBelief」的新型优化器 , 可以同时满足 3 个优点:自适应方法的快速收敛、SGD 的良好泛化性、训练稳定性 。 论文代码也已经放出 。
本文图片
【搜狐新闻|速度堪比Adam,准确率媲美SGD,还能稳定训练GAN:全新优化器成为NeurIPS爆款】
- 论文链接: https://arxiv.org/pdf/2010.07468.pdf
- 论文页面: https://juntang-zhuang.github.io/adabelief/
- 代码链接: https://github.com/juntang-zhuang/Adabelief-Optimizer
研究者用实验验证了 AdaBelief 的效果 。 在图像分类和语言建模方面 ,AdaBelief 收敛迅速 , 准确率高 , 性能优于其他方法 。 具体来说 , 在 ImageNet 上 ,AdaBelief 的准确率可与 SGD 媲美 。
此外 , 在 Cifar10 上训练 GAN 期间 , 与经过调整的 Adam 优化器相比 ,AdaBelief 表现出了高度稳定性并提高了生成样本的质量 。
算法
本文图片
Adam和AdaBelief的算法如上图所示 , 不同之处已经用蓝色字体标注 。 从图中可以看出 , AdaBelief没有引入额外的参数 。 为了简便 , 研究者省略了偏置矫正步骤 。 具体来说 , 在Adam中 , 更新方向是
本文图片
,其中 , v_t是 的指数移动平均值(EMA) 。 在AdaBelief中 , 更新方向是
本文图片
, 其中 , s_t是 (g_t?m_t)^2的EMA 。 直观来看 , 将m_t看作g_t的预测 , 当观察结果g_t与预测结果m_t接近时 , AdaBelief步长较大;当g_t与m_t相差较大时 , AdaBelief步长较小 。
AdaBelief 好在哪儿?
AdaBelief考虑了损失函数的曲率
本文图片
一个理想的优化器会考虑损失函数的曲率 , 而不是在梯度很大(或很小)的地方采取很大(或很小)的步长 。 上图中的区域③展示了AdaBelief在「梯度大 , 曲率小」的情况下相较于Adam的优势 。
在这种情况下 , |g_t|和v_t都很大 , 但|g_t?g_[t?1]|和s_t都很小 。 发生这种情况是因为学习率α很小 。 此时 , 理想的优化器应该增加步长 。 SGD采用了一个很大的步长(~ α|g_t|);在Adam中 , 分母v_t很大 , 因此步长很小;而在AdaBelief中 , 分母s_t很小 , 因此步长和理想优化器一样大 。
推荐阅读
- 市行政■盐城不动产交易一体化平台跑出全省最快加速度
- 南北■长三角加速度!打通江苏南北的“高铁生活”倍受期待
- 『黄金时间』12月8日晚锁定江苏公共新闻频道《黄金时间》 建设“节水优先”的水乡江苏
- 《宿北大战》纪录片在宿豫开机
- 互联网怎样解决“家政服务上门速度慢”的问题
- 搜狐新闻|欧拉好猫10.38万起贵不贵?我们采访了一位男性KOL发现……| 聚闻
- 搜狐汽车|与销冠们有何差别?领克01对比哈弗H6、CS75、CR-V
- 为啥开通了百度云超级会员下载速度还是会那么慢
- 封面新闻|耀出行:滴滴解决你代步的“温饱”问题,我来满足你出行的仪式感需求
- 界面新闻|不会吧?DS 9在欧洲竟然和宝马5系卖得一样贵