有关自然语言处理的深度学习知识有哪些？( 六 ) .font_s.ios.pgcarticle

大家再来想象一下，如果将一个感知机作为第二个感知机的输入，是不是更令人困惑了，这到底是在做什么？
反向传播可以解决这个问题，但首先需要稍微调整一下感知机。记住，权重是根据它们对整体误差的贡献来更新的。但是如果权重对应的输出成为另一个感知机的输入，那么从第二个感知机开始，我们对误差的认识就变得有些模糊了。
如图5-6所示，权重w1i通过下一层的权重（w1j）和（w2j）来影响误差，因此我们需要一种方法来计算w1i对误差的贡献，这个方法就是反向传播。
文章插图
图5-6　包含隐藏权重的神经网络
现在是时候停止使用“感知机”这个术语了，因为之后大家将改变每个神经元权重的更新方式。从这里开始，我们提到的神经元将更通用也更强大，它包含了感知机。在很多文献中神经元也被称为单元或节点，在大多数情况下，这些术语是可以互换的。
所有类型的神经网络都是由一组神经元和神经元之间的连接组成的。我们经常把它们组织成层级结构，不过这不是必需的。如果在神经网络的结构中，将一个神经元的输出作为另一个神经元的输入，就意味着出现了隐藏神经元或者隐藏层，而不再只是单纯的输入层、输出层。
图5-7中展示的是一个全连接网络，图中没有展示出所有的连接，在全连接网络中，每个输入元素都与下一层的各个神经元相连，每个连接都有相应的权重。因此，在一个以四维向量为输入、有5个神经元的全连接神经网络中，一共有20个权重（5个神经元各连接4个权重）。
感知机的每个输入都有一个权重，第二层神经元的权重不是分配给原始输入的，而是分配给来自第一层的各个输出。从这里我们可以看到计算第一层权重对总体误差的影响的难度。第一层权重对误差的影响并不是只来自某个单独权重，而是通过下一层中每个神经元的权重来产生的。虽然反向传播算法本身的推导和数学细节非常有趣，但超出了本书的范围，我们对此只做一个简单的概述，使大家不至于对神经网络这个黑盒一无所知。
反向传播是误差反向传播的缩写，描述了如何根据输入、输出和期望值来更新权重。传播，或者说前向传播，是指输入数据通过网络“向前”流动，并以此计算出输入对应的输出。要进行反向传播，首先需要将感知机的激活函数更改为稍微复杂一点儿的函数。
文章插图
图5-7　全连接神经网络
到目前为止，大家一直在使用阶跃函数作为人工神经元的激活函数。但是接下来会发现，反向传播需要一个非线性连续可微的激活函数[11] ，如公式5-4中常用的sigmoid函数所示，现在每个神经元都会输出介于两个值（如0和1）之间的值：
文章插图
公式5-4　sigmoid函数
为什么激活函数需是非线性的
因为需要让神经元能够模拟特征向量和目标变量之间的非线性关系。如果神经元只是将输入与权重相乘然后做加和，那么输出必然是输入的线性函数，这个模型连最简单的非线性关系都无法表示。
之前使用的神经元阈值函数是一个非线性阶跃函数。所以理论上只要有足够多的神经元就可以用来训练非线性关系模型。
这就是非线性激活函数的优势，它使神经网络可以建立非线性关系模型。一个连续可微的非线性函数，如sigmoid ，可以将误差平滑地反向传播到多层神经元上，从而加速训练进程。 sigmoid神经元的学习速度很快。

有关自然语言处理的深度学习知识有哪些？( 六 )

推荐阅读

百货业|百货业这半年：48家企业有32家盈利，2家亏损扩大超30倍

第一大视野|二次发育成颜值女神，32岁仍单身，奥运冠军郭跃：昔日假小子逆袭

机构|多地完成网贷“清零”任务网贷清退按下加速键

青岛环保部门回应不明异味：系石化公司柴油泄露

求职|求职面试要想成功被录用，这3种话千万不能说

太平洋电脑网AMD B550主板首发评测：X470的替代者它能给你的不只PCIe 4.0

央视|印度阿萨姆邦洪水已造成73人死亡 370万人受灾

当这些女星穿上运动紧身衣，大幂幂这个外号真的十分贴切

#人民网#科技发展大跨越 创新引领谱新篇

「师生」北京：学校中午可供饭，师生需错峰就餐

烹饪|肉末早餐面来啦，让你10分钟就能吃上美味的早餐

#面食#面食最美味的做法，开水一烫，一卷一抻，个个酥脆又多层，太香了

明朝|怎么来评价朱棣发动靖难，谋反称帝？总结只需要四个字

为啥我跑了那么久，做了面膜，喝了温牛奶，看了吃鸟的女孩，数了一群又一群的羊，躺了3小时还没睡着！

按摩腿部能瘦腿吗

重庆将投8亿启动中水回用每年减少污水3000余吨

条件@广西大藤峡水利枢纽工程具备大江截流条件

汽车之家|沿路的风景也很漂亮，开着奕炫GS上山转转

中年危机|40多岁的男人在招聘会上找工作：中年危机

白菜▲医生再三提醒：大白菜不能与“它”同吃，不然就是没病找病，切记！！