可视化解释11种基本神经网络架构 _神经网络

文章插图
> Source: Pixabay

标准，循环，卷积和自动编码器网络随着深度学习的飞速发展，已经创建了完整的神经网络体系结构主机，以解决各种各样的任务和问题。尽管有无数的神经网络架构，但对于任何深度学习工程师来说，这里有11种必不可少的知识，它们分为四大类：标准网络，递归网络，卷积网络和自动编码器。
作者创建的所有图。
标准网络1 | 感知器感知器是所有神经网络中最基础的，是更复杂的神经网络的基本构建块。它仅连接输入单元和输出单元。

文章插图

2 | 前馈网络前馈网络是感知器的集合，其中存在三种基本类型的层-输入层，隐藏层和输出层。在每个连接期间，来自上一层的信号乘以权重，加到偏置上，并通过激活函数。前馈网络使用反向传播来迭代更新参数，直到达到理想的性能为止。

文章插图

3 | 残留网络（ResNet）深度前馈神经网络的一个问题称为消失梯度问题，即当网络太长而无法在整个网络中反向传播有用信息时。随着更新参数的信号通过网络传播，它逐渐减小，直到网络前端的权重完全没有改变或被利用为止。
为了解决这个问题，残差网络采用了跳过连接，可以跨"跳跃的"层传播信号。通过使用不太容易受到影响的连接，可以减少消失的梯度问题。随着时间的流逝，网络在学习特征空间时会学习恢复跳过的图层，但由于其不易受到梯度消失的影响并且需要探索较少的特征空间，因此训练效率更高。

文章插图

循环网络4 | 递归神经网络（RNN）递归神经网络是一种特殊类型的网络，它包含循环并在其自身上递归，因此称为"递归" 。RNN允许将信息存储在网络中，使用先前训练中的推理来做出有关即将发生的事件的更好，更明智的决策。为此，它将先前的预测用作"上下文信号" 。由于其性质，RNN通常用于处理顺序任务，例如逐个字母生成文本或预测时间序列数据（例如股票价格）。他们还可以处理任何大小的输入。

文章插图
> Two RNN visualization methods.

5 | 长期短期记忆网络（LSTM）RNN存在问题，因为实际上上下文信息的范围非常有限。给定输入对隐藏层（因此对网络输出）的影响（反向传播错误），要么呈指数级爆发，要么随着绕网络连接循环而消失为零。解决这个逐渐消失的梯度问题的方法是使用长短期内存网络或LSTM 。
这种RNN架构是专门为解决消失的梯度问题而设计的，将结构与存储块配合在一起。这些模块可以看作是计算机中的存储芯片-每个模块都包含几个循环连接的存储单元和三个门（输入，输出和忘记，相当于写入，读取和重置）。网络只能通过每个门与单元交互，因此门学会了智能地打开和关闭，以防止梯度爆炸或消失，而且还可以通过"恒定错误轮播"传播有用的信息，并丢弃无关的存储内容。

文章插图

在标准RNN无法得知输入事件与目标信号之间存在大于五到十个时间步长的时滞的情况下，LSTM不会受到影响，并且可以通过强制执行有用的恒定错误流来学习将时滞甚至连成1,000个时步。
6 | 回声状态网（ESN）回声状态网络是递归神经网络的一种变体，具有非常稀疏的隐藏层（通常为百分之一的连接性）。神经元的连通性和权重是随机分配的，并且忽略层和神经元的差异（跳过连接）。学习输出神经元的权重，以便网络可以产生和再现特定的时间模式。该网络背后的理由来自这样一个事实：尽管它是非线性的，但训练过程中唯一修改的权重是突触连接，因此可以将误差函数区分为线性系统。

文章插图

卷积网络7 | 卷积神经网络（CNN）图像具有很高的维数，因此训练一个标准的前馈网络来识别图像将需要成千上万的输入神经元，除了公然高昂的计算费用外，还可能引起许多与神经网络的维数诅咒相关的问题。卷积神经网络（CNN）通过使用卷积层和池化层来帮助降低图像的维数，从而提供了解决方案。由于卷积层是可训练的，但是比标准隐藏层具有更少的参数，因此它能够突出显示图像的重要部分并将它们向前传递。传统上，在CNN中，最后几层是隐藏层，用于处理"压缩图像信息" 。