人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史( 五 )


十四、1991年6月:基本问题——梯度消失
Schmidhuber的第一个学生Sepp Hochreiter在1991年的毕业论文中发现并分析了基本的深度学习问题 。
深度NN受到现在著名的梯度消失问题的困扰:在典型的深度或递归网络中 , 反向传播的错误信号要么迅速缩小 , 要么超出界限增长 。在这两种情况下 , 学习都会失败 。

人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
十五、1991年6月:LSTM/Highway Net/ResNet的基础
长短期记忆(LSTM)递归神经网络克服了Sepp Hochreiter在上述1991年的毕业论文中指出的基本深度学习问题 。
在1997年发表了经同行评审的论文之后(现在是20世纪被引用最多的NN文章) , Schmidhuber的学生Felix Gers和Alex Graves等人 , 进一步改进了LSTM及其训练程序 。
1999-2000年发表的LSTM变体——带有遗忘门的「vanilla LSTM架构」 , 在如今谷歌的Tensorflow中依然还在应用 。
2005年 , Schmidhuber首次发表了LSTM在时间上完全反向传播和双向传播的文章(同样也被广泛使用) 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
2006年一个里程碑式的训练方法是「联结主义时间分类」(CTC) , 用于同时对齐和识别序列 。
Schmidhuber的团队在2007年成功地将CTC训练的LSTM应用于语音(也有分层的LSTM堆栈) , 第一次实现了卓越的端到端神经语音识别效果 。
2009年 , 通过Alex的努力 , 由CTC训练的LSTM成为第一个赢得国际比赛的RNN , 即三个ICDAR 2009手写比赛(法语、波斯语、阿拉伯语) 。这引起了业界的极大兴趣 。LSTM很快被用于所有涉及序列数据的场合 , 比如语音和视频 。
2015年 , CTC-LSTM的组合极大地改善了谷歌在Android/ target=_blank class=infotextkey>安卓智能手机上的语音识别性能 。直到2019年 , 谷歌在移动端搭载的语音识别仍然是基于LSTM 。
1995年:神经概率语言模型
1995年 , Schmidhuber提出了一个优秀的神经概率文本模型 , 其基本概念在2003年被重新使用 。
2001年 , Schmidhuber表明LSTM可以学习HMM等传统模型无法学习的语言 。
2016年的谷歌翻译 , 则是基于两个连接的LSTM(白皮书提到LSTM超过50次) , 一个用于传入文本 , 一个用于传出翻译 。
同年 , 谷歌数据中心用于推理的超强计算能力中 , 有超过四分之一用于LSTM(还有5%用于另一种流行的深度学习技术 , 即CNN) 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
到了2017年 , LSTM还为Facebook的机器翻译(每周超过300亿次翻译)、苹果在大约10亿部iphone上的Quicktype、亚马逊的Alexa的语音、谷歌的图像标题生成和自动电子邮件回答等提供支持 。
当然 , Schmidhuber的LSTM也被大量用于医疗保健和医疗诊断——简单的谷歌学术搜索就能找到无数标题中带有「LSTM」的医学文章 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
2015年5月 , Schmidhuber团队基于LSTM原理提出了Highway Network , 第一个具有数百层的非常深的FNN(以前的NN最多只有几十层) 。微软的ResNet(赢得了ImageNet 2015比赛)便是它的一个版本 。
早期Highway Net在ImageNet上的表现与ResNet大致相同 。Highway Net的变体也被用于某些算法任务 , 在这些任务中 , 纯残差层的效果并不理想。
LSTM/Highway Net原理是现代深度学习的核心
深度学习的核心是NN深度 。
在20世纪90年代 , LSTM为有监督的递归NN带来了基本无限的深度;在2000年 , 受LSTM启发的Highway Net为前馈NN带来了深度 。
现在 , LSTM已经成为20世纪被引用最多的NN , 而Highway Net的其中一个版本ResNet , 则是21世纪被引用最多的NN 。
十六、1980至今:在没有老师的情况下学习行动的NNN
此外 , NN也与强化学习(RL)有关 。
虽然部分问题可以通过早在20世纪80年代之前发明的非神经技术来解决 。比如 , 蒙特卡洛树搜索(MC)、动态规划(DP)、人工进化、α-β-剪枝、控制理论和系统识别、随机梯度下降 , 以及通用搜索技术 。但深度FNN和RNN可以为某些类型的RL任务带来更好的效果 。


推荐阅读