深度学习优化算法研究取得进展

近年来,在材料科学、人工智能芯片等前沿领域,深度学习受到广泛的研究和应用 。具体来说,深度学习通过学习样本数据的内在规律和表示层次实现机器像人一样具有分析和学习的能力,因而在材料科学研究中可以帮助分析高维、非线性的特征数据;在人工智能芯片研发中可以提供高效、通用的网络模型 。区别于传统的浅层学习,深度学习一般具有深层的神经网络模型结构,比如目前最复杂的深度模型BERT含有1亿个以上的参数 。因此,深度模型的训练(也就是求解模型的参数)一直是一项具有挑战性的任务 。
一般来说,求解深度模型参数的训练算法具有两个重要的性能指标:算法的收敛速度和泛化能力 。目前,应用较广泛的训练算法是随机梯度下降算法(SGD)和学习率自适应的随机梯度下降算法(如Adam和AdaBelief),其中SGD具有良好的泛化能力,但是收敛速度缓慢;Adam和AdaBelief具有较快的收敛速度,但是泛化能力不如SGD 。因此,使优化算法同时具备良好的泛化能力和快速的收敛速度是深度学习领域内的研究热点之一 。
中国科学院苏州纳米技术与纳米仿生研究所研究员刘欣等针对学习率自适应的随机梯度下降算法Adabief在强凸条件下的收敛速度是否可以进一步提高的问题进行了首次尝试,并给出了肯定的答案 。团队利用损失函数的强凸性,提出了一种新的算法FastAdaBelief(图1),该算法在保持良好的泛化能力的同时,具有更快的收敛速度 。

深度学习优化算法研究取得进展

文章插图


    推荐阅读