图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读( 五 )


 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 14. 在 3D 卷积间路由。
以下为对应的动态路由的伪代码,使得胶囊网络能够减少参数,并且能够在两个卷积层之间进行参数的更新。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
此外,整个网络的结构还参考了残差网络,其的部分典型结构如图 15 所示。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 15. DeepCap 网络的部分结构图
同样的,该网络也添加了一个解码器。解码器网络由反卷积层组成,它利用从 DeepCaps 模型中提取的实例化参数来重新构造输入数据。与全连通层解码器相比,这个解码器捕获了更多的空间关系,而重建这些图像,该解码器,也能用于正则化胶囊网络。此外,使用二元交叉熵作为损失函数也能提高网络的性能。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 16. 该网络带有的解码器。
最后,在实验结果上,作者使用了 CIFAR10, SVHN 和 Fashion-MNIST 数据集作为验证,并展示了解码器重新显示的图像结果。其结果如下。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 17. 解码器显示的结果。左边为其他文章中用的全连接解码器,右边为该网络实现的解码器。
【 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读】(3) Visual-textual Capsule Routing
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
该文提出了一种使用胶囊网络通过自然语言问题探测视频中演员和动作的方法,具体为在视频和句子输入中存在共同的实体,使用动态路由可以找到这些实体之间的相似性,网络模型学习了这些相似性并生成一个统一的视觉 - 文本的胶囊表示 [7]。首先,文章展示了整个处理方法的步骤如下。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 18. 提出的方法。
对于一个给定的视频,我们想要定位一个输入文本所查询中演员和动作,从视频和文本查询中提取初级胶囊,然后联合一个 EM 路由算法创建高级胶囊,进一步用于定位选择的演员和行动。胶囊代表着实体和路由采用的高维滤波学习这些实体之间的部分到整体的关系。
在这篇文章中,作者提出的方法是在视频和句子中存在相同的实体,输入和路由可以找到这些实体之间的相似性。本文的方法允许网络学习一套同时包含视觉输入和句子输入的实体(胶囊),通过这些实体,胶囊路由发现视频和句子输入对象之间的相似性,生成一个统一的视觉 - 文本的胶囊表示。
该文最大的特点就是提出了视频 - 文本的胶囊路由方法如下:
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 19. 视频 - 文本的胶囊路由,输入到路由过程的是视频胶囊的姿态矩阵和激活,其中利用了 EM Routing 进行了参数的更新。
接下来展示的是该网络结构,如下图。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 20. Visual-textual Capsule Routing 网络结构。
胶囊中包含视频帧中的空间时间特征,并且胶囊也包含着自然语言中的文本。这些胶囊被路由到一起以创建胶囊来表示图像中演员的形象,视觉 - 文本的胶囊通过掩模版和上采样网络共同来创建一个能够用文本指定演员的二值化分割图像。
接下来,作者也做了相关实验进行了对该网络效果的验证。以下是 A2D 数据集和 JHMDB 数据集的评估结果。
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
文章中作者也给出了直观的定性结果供读者参考
 图像中|学习Hinton老爷子的胶囊网络,这有一篇历史回顾与深度解读
文章图片
图 21. 定性的结果。句子查询颜色与切分颜色对应,第一行包含只使用像素级的注释的分段,第二行包含从网络训练使用所有帧上的边框标注的分段。
三:胶囊网络在多个领域的应用
胶囊网络的出现打开了多个领域研究者的新思路,它可以被用来解决天文学,自动驾驶,机器翻译,手写字符和文本识别,目标检测,情绪检测等等任务 [1]。具体来说,以图像表示的交通数据适合用 CapsNets 来预测交通流量和异常驾驶等。
随着社交媒体的广泛使用,用户的图片和视频可能被伪造,现有的检测方法无法在视频和图像中检测多种形式的伪造,但是使用 CapNets 能够有效的减少过拟合和提高检测的精度。
对于自然语言处理的任务,CapsNet 也被证明能够比传统 CNN 更有效地处理主谓宾之间的关系。在健康医疗等方向上,CapsNet 也能有效提取健康系统中实体之间语义关系,并能很好的处理数量量小,数据不平衡等问题。自动驾驶汽车将大大受益于 CapsNets,传感器数据将收集需要处理的闪光和速度,以便允许汽车在一瞬间做出决定。得益于 GPU, TPU 等硬件的快速发展,相信胶囊网络在其他不同领域的应用会越来越多。


推荐阅读