Transformer竞争对手QRNN论文解读更快的RNN( 二 ) 使用递归神经网络（RNN）序列建模业务

池化组件
通常，合并是一种无参数的函数，可捕获卷积特征中的重要特征。对于图像，通常使用最大池化和平均池化。但是，在序列的情况下，我们不能简单地获取特征之间的平均值或最大值，它需要有一些循环。因此， QRNN论文提出了受传统LSTM单元中元素级门控体系结构启发的池化功能。本质上，它是一个无参数函数，它将跨时间步混合隐藏状态。
最简单的选项是"动态平均池化" ，它仅使用了"忘记门"（因此称为f-pooling）：
文章插图
⊙是逐元素矩阵乘法。它以忘记门为参数，几乎等于输出的"移动平均值" 。
另一种选择是使用忘记门以及输出门（所以被称作， fo-pooling）：
文章插图
除此以外，池化可能另外具有专用的输入门（ifo-pooling）：
文章插图
正则化在检查了各种递归退出方案之后， QRNN使用了一种扩展方案，称为"区域退出"（'zone out），它本质上是在每个时间步选择一个随机子集来退出，对于这些通道，它只是将当前通道值复制到下一次步骤，无需任何修改。
这等效于将QRNN的"忘记门"通道的子集随机设置为1 ，或在1-F上进行dropout -- QRNN Paper
文章插图
来自DenseNet的想法
文章插图
DenseNet体系结构建议在每一层与其前面的每一层之间都具有跳过连接，这与在后续层上具有跳过连接的惯例相反。因此，对于具有L个层的网络，将存在L（L-1）个跳过连接。这有助于梯度流动和收敛，但要考虑二次空间。
使用QRNN构建seq2seq
文章插图
在基于RNN的常规seq2seq模型中，我们只需使用编码器的最后一个隐藏状态初始化解码器，然后针对解码器序列对其进行进一步修改。我们无法对循环池层执行此操作，因为在这里，编码器状态无法为解码器的隐藏状态做出很大贡献。因此，作者提出了一种改进的解码器架构。
将编码器的最后一个隐藏状态（最后一个令牌的隐藏状态）线性投影（线性层），并在应用任何激活之前，将其添加到解码器层每个时间步长的卷积输出中（广播，因为编码器矢量较小）：
文章插图
V是应用于最后一个编码器隐藏状态的线性权重。
注意力机制注意力仅应用于解码器的最后隐藏状态。
文章插图
其中s是编码器的序列长度， t是解码器的序列长度， L表示最后一层。
首先，将解码器的未选通的最后一层隐藏状态的点积与最后一层编码器隐藏状态相乘。这将导致形状矩阵（t ， s）。将Softmax替代s ，并使用该分数获得形状（t ， hiddendim）的注意总和kt 。然后，将kt与ct一起使用，以获取解码器的门控最后一层隐藏状态。
性能测试
文章插图
【Transformer竞争对手QRNN论文解读更快的RNN】与LSTM架构相比， QRNN可以达到相当的准确度，在某些情况下甚至比LSTM架构略胜一筹，并且运算速度提高了17倍。

Transformer竞争对手QRNN论文解读更快的RNN( 二 )

推荐阅读

历史|美股三连跌科技股领跌大盘

[数码小王]Pro有点像，还是双打孔曲面屏！荣耀30 Pro真机曝光，跟华为P40

海外网|8月30日全球疫情观察：至少16国日增确诊超千例印度单日确诊再现最大增幅

熟普洱的保存方法熟普洱保存和储藏方法

默叔说香水|库尔吉安乌木丝缎心情教科书式乌木玫瑰香

如何自己办理宠物托运宠物托运手续

天猫店新店考核不通过天猫店考核期指标没有达到怎么办

『车家号』95 km，加量不加价的宝马530Le增重后如何延续操控，纯电续航升至

中国新闻网|浙江龙泉发现国家二级保护动物阳彩臂金龟

公新翰@但最伤的是另一个决策！，QG四连跪的主要原因找到？没买最初很伤

黑喵游妮|阴阳师8月19日体验服更新总结为崽而战斗技中午时长变成2小时

生煎包|松江超嗲的生煎包大全，哪家是你最爱吃的？

宝宝躺着吃奶(躺着给宝宝喂奶好么？)

之夏|博山自闭症疗育中心获第四届“博山之夏”全民才艺大赛“特殊表演奖”

咽喉干燥可喝西洋参麦冬茶

大洋网|海关归类服务为企业年减关税逾千万元

女性冬季如何饮食养生？几款专属女性的养生食物

前无后有|工资太低而消费太低，该怎么办？，职场中的年轻人

提亮嫩肤秘方大公开，教你一键美白上岸

首席生活家开箱体验，智能方便：美的嵌入式蒸烤一体机BS5055W