Transformer竞争对手QRNN论文解读更快的RNN 使用递归神经网络（RNN）序列建模业务

使用递归神经网络（RNN）序列建模业务已有很长时间了。但是RNN很慢因为他们一次处理一个令牌无法并行化处理。此外，循环体系结构增加了完整序列的固定长度编码向量的限制。为了克服这些问题，诸如CNN-LSTM ， Transformer ， QRNNs之类的架构蓬勃发展。
在本文中，我们将讨论论文"拟递归神经网络"（arxiv/1611.01576）中提出的QRNN模型。从本质上讲，这是一种将卷积添加到递归和将递归添加到卷积的方法。
LSTM
文章插图
LSTM是RNN最著名的变体。红色块是线性函数或矩阵乘法，蓝色块是无参数元素级块。LSTM单元应用门控功能（输入，遗忘，输出）以获得输出和称为隐藏状态的存储元素。此隐藏状态包含整个序列的上下文信息。由于单个向量编码完整序列，因此LSTM无法记住长期依赖性。而且，每个时间步长的计算取决于前一个时间步长的隐藏状态，即LSTM一次计算一个时间步长。因此，计算不能并行进行。
CNN
文章插图
CNN可以捕获空间特征（主要用于图像）。红色块是卷积运算，蓝色块是无参数池化运算。CNN使用内核（或过滤器）通过滑动窗口捕获要素之间的对应关系。这克服了固定长度的隐藏表示形式（以及由此带来的长期依赖问题）以及RNN缺乏并行性限制的问题。但是， CNN不显示序列的时间性质，即时间不变性。池化层只是在不考虑序列顺序信息的情况下降低了通道的维数。
Quasi-Recurrent Neural Networks (QRNN)
文章插图
QRNN解决了两种标准架构的缺点。它允许并行处理并捕获长期依赖性，例如CNN ，还允许输出依赖序列中令牌的顺序，例如RNN 。
因此，首先， QRNN体系结构具有2个组件，分别对应于CNN中的卷积（红色）和池化（蓝色）组件。
卷积分量
卷积组件的操作如下：
· 形状的输入序列：（batchsize ， sequencelength ， embed_dim）
· 每个" bank"的形状为" hiddendim"的内核：（batchsize ， kernelsize ， embeddim）。
· 输出是一个形状序列：（batchsize ， sequencelength ， hidden_dim）。这些是序列的隐藏状态。
卷积运算在序列以及小批量上并行应用。
为了保留模型的因果关系（即，只有过去的标记才可以预测未来），使用了一种称为遮罩卷积（masked-convolutions）的概念。也就是说，输入序列的左边是" kernelsize-1"零。因此，只有'sequencelength-kernel_size + 1'过去的标记可以预测给定的标记。为了获得更好的直觉，请参考下图：
文章插图
接下来，我们基于池化功能（将在下一节中讨论）使用额外的内核库，以获取类似于LSTM的门控向量：
文章插图
这里， *是卷积运算； Z是上面讨论的输出（称为"输入门"输出）； F是使用额外的内核库Wf获得的"忘记门"输出； O是使用额外的内核库Wo获得的"输出门"输出。
如上所述，这些卷积仅应用于过去的" sequencelength-kernelsize + 1"令牌。因此，如果我们使用kernel_size = 2 ，我们将得到类似LSTM的方程式：
文章插图

Transformer竞争对手QRNN论文解读更快的RNN

推荐阅读

菲律宾|不愿意充当美军马前卒，杜特尔特态度逆转，航母刚走就瞬间认怂了

米饭|几道美味菜肴，简单易学，每次做都担心米饭不够

西藏纳木错是我国第几大咸水湖纳木错湖是海拔最高的湖

男人戒酒喝这水，肾脏越喝越虚！

澎湃|上海科技馆、自博馆自7月21日起恢复团队接待和影院开放

「体坛焦点」平均年薪3000万，名记：布雷迪预计将加盟坦帕湾海盗

镜子发型|2020精选“不老气”发型16款，无论长短都很美，看看你喜欢哪一款

打新娘 * (打屁屁的视频)**

「林火」澳大利亚林火还在烧

冬天只需吃这一物让你百病消

[人民前线]侦察兵里当尖兵！，00后上等兵

保山警方安全头盔又救一命！，71岁老人骑摩托追尾

食材▲9道适合瘦身喝的汤，低脂低卡，每天一碗，不用节食也能瘦

海陆空天惯性世界|到底买不买，俄罗斯决定敲山震虎：苏35千里奔袭土耳其身下软肋

电脑的网络带宽测试软件推荐带宽测试软件点对点

这道酥到掉渣的老婆饼真的是不讲究，有啥放啥都好吃

小雪+雨夹雪＋霾！未来三天，注意这些事→

整治|已整治“散乱污”场所1.3万家，白云超前完成年度“小目标”

每经9点丨国家卫健委：昨日新增确诊病例99例

以下哪个圣痕没有负面以下哪个圣痕没有负面效果