有关自然语言处理的深度学习知识有哪些?( 四 )

哈哈!这个感知机真是个好学生 。 通过内部循环更新权重 , 感知机从数据集中学习了经验 。 在第一次迭代后 , 它比随机猜测(正确率为1/4)多得到了两个正确结果(正确率为3/4) 。
在第二次迭代中 , 它过度修正了权重(更改了太多) , 然后通过调整权重来回溯结果 。 当第四次迭代完成后 , 它已经完美地学习了这些关系 。 随后的迭代将不再更新网络 , 因为每个样本的误差为0 , 所以不会再对权重做调整 。
这就是所谓的收敛 。 当一个模型的误差函数达到了最小值 , 或者稳定在一个值上 , 该模型就被称为收敛 。 有时候可能没有这么幸运 。 有时神经网络在寻找最优权值时不断波动以满足一批数据的相互关系 , 但无法收敛 。 在5.8节中 , 大家将看到目标函数(objective function)或损失函数(loss function)如何影响神经网络对最优权重的选择 。
4.下一步基本感知机有一个固有缺陷 , 那就是 , 如果数据不是线性可分的 , 或者数据之间的关系不能用线性关系来描述 , 模型将无法收敛 , 也将不具有任何有效预测的能力 , 因为它无法准确地预测目标变量 。
早期的实验在仅基于样本图像及其类别来进行图像分类的学习上取得了成功 。 这个概念在早期很激动人心 , 但很快受到了来自明斯基(Minsky)和佩珀特(Papert)的考验[6] , 他们指出感知机在分类方面有严重的局限性 , 他们证明了如果数据样本不能线性可分为独立的组 , 那么感知机将无法学习如何对输入数据进行分类 。
线性可分的数据点(如图5-4所示)对感知机来说是没有问题的 , 而存在类别交叉的数据将导致单神经元感知机原地踏步 , 学习预测的结果将不比随机猜测好 , 表现得就像是在随机抛硬币 。 在图5-5中我们就无法在两个类(分别用点和叉表示)之间画一条分割线 。
有关自然语言处理的深度学习知识有哪些?文章插图
图5-4 线性可分的数据
有关自然语言处理的深度学习知识有哪些?文章插图
图5-5 非线性可分的数据
感知机会用线性方程来描述数据集的特征与数据集中的目标变量之间的关系 , 这就是线性回归 , 但是感知机无法描述非线性方程或者非线性关系 。
局部极小值与全局极小值
当一个感知机收敛时 , 可以说它找到了一个描述数据与目标变量之间关系的线性方程 。 然而 , 这并不能说明这个描述性线性方程有多好 , 或者说代价有多“小” 。 如果有多个解决方案 , 即存在着多个可能的极小代价 , 它只会确定一个由权重初始值决定的、特定的极小值 。 这被称为局部极小值 , 因为它是在权重开始的地方附近找到的最优值(最小的代价) 。 它可能不是全局极小值 , 因为全局极小值需要搜索所有可能的权重值 。 在大多数情况下 , 无法确定是否找到了全局极小值 。
很多数据值之间的关系不是线性的 , 也没有好的线性回归或线性方程能够描述这些关系 。 许多数据集不能用直线或平面来线性分割 。 因为世界上的大多数数据不能由直线或平面来清楚地分开 , 明斯基和佩珀特发表的“证明”让感知机被束之高阁 。
但是有关感知机的想法并不会就此消亡 。 Rumelhardt McClelland的合作成果[7](Geoffrey Hinton也参与其中)展示了可以使用多层感知机的组合来解决异或(XOR)问题[8] , 此后感知机再次浮出水面 。 之前 , 大家使用单层感知机解决的或(OR)问题属于比较简单的问题 , 也没有用到多层反向传播 。 Rumelhardt McClelland的关键突破是发现了一种方法 , 该方法可以为每个感知机适当地分配误差 。 他们使用的是一种叫反向传播的传统思想 , 通过这种跨越多个神经元层的反向传播思想 , 第一个现代神经网络诞生了 。
基本感知机有一个固有的缺陷 , 即如果数据不是线性可分的 , 则模型不会收敛到具有有效预测能力的解 。


推荐阅读