深度学习优化算法研究取得进展 _深度学习

近年来，在材料科学、人工智能芯片等前沿领域，深度学习受到广泛的研究和应用。具体来说，深度学习通过学习样本数据的内在规律和表示层次实现机器像人一样具有分析和学习的能力，因而在材料科学研究中可以帮助分析高维、非线性的特征数据；在人工智能芯片研发中可以提供高效、通用的网络模型。区别于传统的浅层学习，深度学习一般具有深层的神经网络模型结构，比如目前最复杂的深度模型BERT含有1亿个以上的参数。因此，深度模型的训练（也就是求解模型的参数）一直是一项具有挑战性的任务。
一般来说，求解深度模型参数的训练算法具有两个重要的性能指标：算法的收敛速度和泛化能力。目前，应用较广泛的训练算法是随机梯度下降算法（SGD）和学习率自适应的随机梯度下降算法（如Adam和AdaBelief），其中SGD具有良好的泛化能力，但是收敛速度缓慢；Adam和AdaBelief具有较快的收敛速度，但是泛化能力不如SGD 。因此，使优化算法同时具备良好的泛化能力和快速的收敛速度是深度学习领域内的研究热点之一。
中国科学院苏州纳米技术与纳米仿生研究所研究员刘欣等针对学习率自适应的随机梯度下降算法Adabief在强凸条件下的收敛速度是否可以进一步提高的问题进行了首次尝试，并给出了肯定的答案。团队利用损失函数的强凸性，提出了一种新的算法FastAdaBelief（图1），该算法在保持良好的泛化能力的同时，具有更快的收敛速度。

文章插图

深度学习优化算法研究取得进展

推荐阅读

Miss西里|赵露思扎丸子头简直清纯甜妹本人，怼脸拍也是胶原蛋白满满

6个最适合冬天旅行的目的地冬天适合去哪里旅游

共享电梯能装吗？超过300台企业会赔本儿

江西宁都小布岩茶是绿茶吗产地特点工艺介绍

最新趣闻|不思进取的黄政民和自甘堕落的李政宰！

搜狐新闻每天揉腹三次，坚持一段时间后，3个惊喜变化或许在路上！

原呵呵 Swift5（2020）初步评测：轻奢电脑，适合旅行，宏基

#徐晓冬#昨晚！武僧一龙连线王洪祥，终于说出不愿和徐晓冬比赛的真正原因

如何自制书架？

20岁的女生可以通过哪些渠道来提升穿衣品味和，学会打扮自己

还得等等，广汽丰田凌尚或明年中旬上市

体育大学僧|为何会被交易到休城搭档姚明？有2个原因，麦迪在魔术正值巅峰期

台州是哪个省的城市哪个市,台州是哪个省的城市

『凌子看世界』与队伍产生矛盾，或将远走西甲，尤文的贝尔代纳斯基

个股期权如何交易(股市期权交易细则)

澎湃新闻|【社论】发展新个体经济，向改革要活力

笔记本电脑桌面图标不见能怎么样解决

青岩梦罢|看到任嘉伦与自己妻子的合照，二人真的很配

如果心有颜色|巩俐穿吊带裙现身街头，素颜微胖却气质难挡，秀起恩爱也很甜

心领悟|太穷了，12星座存不到钱的原因！，在十二星座中