人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史( 二 )


神经网络的输出是输入与其权值的乘积之和 。给定输入向量的训练集和每个向量的期望目标值 , 调整 权值 , 使神经网络输出与相应目标之间的平方误差之和最小化 。
当然 , 那时候这还不叫神经网络 。它被称为最小二乘法(least squares) , 也被广泛称为线性回归 。但它在数学上与今天的线性神经网络相同:相同的基本算法、相同的误差函数、相同的自适应参数/权值 。

人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
约翰·卡尔·弗里德里希·高斯
这种简单的神经网络执行「浅层学习」 , 与具有许多非线性层的「深度学习」相反 。事实上 , 许多神经网络课程都是从介绍这种方法开始的 , 然后转向更复杂、更深入的神经网络 。
当今 , 所有技术学科的学生都必须上数学课 , 尤其是分析、线性代数和统计学 。在所有这些领域中 , 许多重要的结果和方法都要归功于高斯:代数基本定理、高斯消元法、统计的高斯分布等 。
这位号称「自古以来最伟大的数学家」的人也开创了微分几何、数论(他最喜欢的科目)和非欧几何 。如果没有他的成果 , 包括AI在内的现代工程将不可想象 。
三、1920-1925年:第一个循环神经网络
与人脑相似 , 循环神经网络(RNN)具有反馈连接 , 因此可以遵循从某些内部节点到其他节点的定向连接 , 并最终在起点处结束 。这对于在序列处理期间实现对过去事件的记忆至关重要 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
威廉·楞次(左);恩斯特·伊辛(右)
物理学家恩斯特·伊辛(Ernst Ising)和威廉·楞次(Wilhelm Lenz)在 1920 年代引入并分析了第一个非学习RNN架构:伊辛模型(Ising model) 。它根据输入条件进入平衡状态 , 是第一个RNN学习模型的基础 。
1972 年 , 甘利俊一(Shun-Ichi Amari)使伊辛模型循环架构具有自适应性 , 可以通过改变其连接权值来学习将输入模式与输出模式相关联 。这是世界上第一个学习型RNN 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
甘利俊一
目前 , 最流行的RNN就是Schmidhuber提出的长短期记忆网络LSTM 。它已经成为20世纪被引用最多的神经网络 。
四、1958年:多层前馈神经网络
1958年 , 弗兰克·罗森布拉特(Frank Rosenblatt)结合了线性神经网络和阈值函数 , 设计出了更深层次的多层感知器 (MLP) 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
弗兰克·罗森布拉特
多层感知器遵循人类神经系统原理 , 学习并进行数据预测 。它首先学习 , 然后使用权值存储数据 , 并使用算法来调整权值并减少训练过程中的偏差 , 即实际值和预测值之间的误差 。
由于多层前馈网络的训练经常采用误差反向传播算法 , 在模式识别的领域中算是标准监督学习算法 , 并在计算神经学及并行分布式处理领域中 , 持续成为被研究的课题 。
五、1965年:第一个深度学习
深度前馈网络架构的成功学习始于1965年的乌克兰 , 当时Alexey Ivakhnenko和Valentin Lapa为具有任意多个隐藏层的深度MLP引入了第一个通用的工作学习算法 。
人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

文章插图
Alexey Ivakhnenko
给定一组具有相应目标输出向量的输入向量训练集 , 层逐渐增长并通过回归分析进行训练 , 然后借助单独的验证集进行修剪 , 其中正则化用于清除多余的单元 。层数和每层单元以问题相关的方式学习 。
与后来的深度神经网络一样 , Ivakhnenko的网络学会了为传入数据创建分层的、分布式的、内部表示 。
他没有称它们为深度学习神经网络 , 但它们就是这样 。事实上 , 「深度学习」这个术语最早是由Dechter于1986年引入机器学习的 , 而Aizenberg等人在2000则引入了「神经网络」的概念 。
六、1967-68年:随机梯度下降
1967年 , 甘利俊一首次提出通过随机梯度下降 (SGD)训练神经网络 。
甘利俊一与他的学生Saito在具有两个可修改层的五层MLP中学习了内部表示 , 该层被训练用于对非线性可分离模式类进行分类 。


推荐阅读