『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集( 二 )


『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
视频解析器
研究者使用ResNet-50FPN作为主干网络 , 通过MaskR-CNN在每帧视频上执行物体检测和场景去渲染 。 对于输入的每帧视频 , 网络输出物体的固有属性(颜色、材料、形状)标签、物体的maskproposals以及proposal的置信度 , 由此获得以物体为中心的视频表征 。
动态预测器
他们将PropNet应用到动态建模中 , 将物体的proposals作为输入 , 预测其运动轨迹和碰撞事件 。
PropNet将动态系统表示为有向图G=?O,R? , 其中顶点O={o_i}表示物体 , 边R={r_k}表示关系 。 每个物体o_i和关系r_k可以进一步写成
『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片

『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
, 其中s_i表示物体的状态;
『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
表示物体的固有属性;u_k和v_k表示由边r_k连接的接收方和发送方顶点的索引;
『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
表示边的状态 , 即两个物体之间是否存在碰撞 。 PropNet通过多步信息传递来处理物体之间的状态转移 。
问题解析器
使用基于注意力机制的Seq2Seq模型将输入的问题解析为相应的程序 , 模型由双向LSTM编码器和注意力LSTM解码器组成 。 给定输入单词序列 , 编码器首先在每个步骤生成双向潜在编码
『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
然后 , 解码器使用注意力机制从潜在编码中生成一系列程序token:
『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
其中 , 编码器和解码器均使用两层隐藏层和300维度单词嵌入向量 。
程序执行器
程序执行器在动态预测器提取的运动轨迹和碰撞事件上执行程序 , 并输出问题的答案 。 它包含多个通过Python实现的程序模块 , 其中共有三种类型:输入模块 , 过滤器模块和输出模块 。 输入模块是程序树的入口点;过滤器模块基于固有属性、运动状态、时间顺序或因果关系对输入物体/事件执行逻辑运算;输出模块返回答案标签 。
NS-DR性能评估
研究者在CLEVRER上评估了NS-DR的性能 , 结果如下表所示 。 对于描述性问题 , 他们的模型可达到88.1%的准确率 , 显著优于其他基准方法 。 在解释性、预测性和反事实问题上 , 他们的模型获得了更大的提升 。
『科技小辛辛』推动视频理解的因果逻辑推理,MIT、DeepMind发布CLEVRER数据集
文章图片
NS-DR将动态规划纳入视觉推理任务中 , 能够直接对未观察到的运动和事件进行预测 , 并能够对预测性和反事实性任务进行建模 。 这表明动态规划对基于语言的视觉推理任务具有很大的潜力 , NS-DR朝着这个方向迈出了初步探索 。 此外 , 符号表征为视觉、语言、动力学和因果关系提供了强大的共同基础 。 通过设计 , 它使模型能够明确地捕获视频因果结构和问题逻辑 。
总结
视频中时间和因果推理 , 这个深刻且具有挑战性的问题已深深植根于人工智能的基础之上 , 最近才开始使用「现代」人工智能方法进行研究 。 他们引入了一系列基准任务 , 以更好地促进这一领域的研究 , 新提出的CLEVRER数据集和NS-DR模型是朝着这个方向迈出的初步尝试 。
研究者希望随着图网络、视觉预测模型和结合神经网络和符号表征算法的最新发展 , 深度学习领域可以在将来更加现实的设置中重新审视这一经典问题 , 从而获得超越模式识别的真正智能 。


推荐阅读