人工智能300年！LSTM之父万字长文：详解现代AI和深度学习发展史( 二 ) _人工智能

神经网络的输出是输入与其权值的乘积之和。给定输入向量的训练集和每个向量的期望目标值，调整权值，使神经网络输出与相应目标之间的平方误差之和最小化。
当然，那时候这还不叫神经网络。它被称为最小二乘法（least squares），也被广泛称为线性回归。但它在数学上与今天的线性神经网络相同：相同的基本算法、相同的误差函数、相同的自适应参数/权值。

文章插图
约翰·卡尔·弗里德里希·高斯
这种简单的神经网络执行「浅层学习」，与具有许多非线性层的「深度学习」相反。事实上，许多神经网络课程都是从介绍这种方法开始的，然后转向更复杂、更深入的神经网络。
当今，所有技术学科的学生都必须上数学课，尤其是分析、线性代数和统计学。在所有这些领域中，许多重要的结果和方法都要归功于高斯：代数基本定理、高斯消元法、统计的高斯分布等。
这位号称「自古以来最伟大的数学家」的人也开创了微分几何、数论（他最喜欢的科目）和非欧几何。如果没有他的成果，包括AI在内的现代工程将不可想象。
三、1920-1925年：第一个循环神经网络
与人脑相似，循环神经网络（RNN）具有反馈连接，因此可以遵循从某些内部节点到其他节点的定向连接，并最终在起点处结束。这对于在序列处理期间实现对过去事件的记忆至关重要。

文章插图
威廉·楞次（左）；恩斯特·伊辛（右）
物理学家恩斯特·伊辛（Ernst Ising）和威廉·楞次（Wilhelm Lenz）在 1920 年代引入并分析了第一个非学习RNN架构：伊辛模型（Ising model）。它根据输入条件进入平衡状态，是第一个RNN学习模型的基础。
1972 年，甘利俊一（Shun-Ichi Amari）使伊辛模型循环架构具有自适应性，可以通过改变其连接权值来学习将输入模式与输出模式相关联。这是世界上第一个学习型RNN 。

文章插图
甘利俊一
目前，最流行的RNN就是Schmidhuber提出的长短期记忆网络LSTM 。它已经成为20世纪被引用最多的神经网络。
四、1958年：多层前馈神经网络
1958年，弗兰克·罗森布拉特（Frank Rosenblatt）结合了线性神经网络和阈值函数，设计出了更深层次的多层感知器 (MLP) 。

文章插图
弗兰克·罗森布拉特
多层感知器遵循人类神经系统原理，学习并进行数据预测。它首先学习，然后使用权值存储数据，并使用算法来调整权值并减少训练过程中的偏差，即实际值和预测值之间的误差。
由于多层前馈网络的训练经常采用误差反向传播算法，在模式识别的领域中算是标准监督学习算法，并在计算神经学及并行分布式处理领域中，持续成为被研究的课题。
五、1965年：第一个深度学习
深度前馈网络架构的成功学习始于1965年的乌克兰，当时Alexey Ivakhnenko和Valentin Lapa为具有任意多个隐藏层的深度MLP引入了第一个通用的工作学习算法。

文章插图
Alexey Ivakhnenko
给定一组具有相应目标输出向量的输入向量训练集，层逐渐增长并通过回归分析进行训练，然后借助单独的验证集进行修剪，其中正则化用于清除多余的单元。层数和每层单元以问题相关的方式学习。
与后来的深度神经网络一样， Ivakhnenko的网络学会了为传入数据创建分层的、分布式的、内部表示。
他没有称它们为深度学习神经网络，但它们就是这样。事实上，「深度学习」这个术语最早是由Dechter于1986年引入机器学习的，而Aizenberg等人在2000则引入了「神经网络」的概念。
六、1967-68年：随机梯度下降
1967年，甘利俊一首次提出通过随机梯度下降 (SGD)训练神经网络。
甘利俊一与他的学生Saito在具有两个可修改层的五层MLP中学习了内部表示，该层被训练用于对非线性可分离模式类进行分类。