一行代码调用预训练模型,上海交大开源视频理解工具箱AlphaVideo
机器之心发布
机器之心编辑部
近期 , 上海交通大学卢策吾团队在《自然-机器智能》上发表视觉序列理解的研究成果 , 通过模仿人类的认知机制 , 提出了可应用于高维度信息的半耦合结构模型(SCS) 。 此外 , 他们还开源了视频理解工具箱AlphaVideo 。
近期 , 上海交通大学卢策吾团队在《自然-机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complexsequentialunderstandingthroughtheawarenessofspatialandtemporalconcepts》 。
与此同时 , 该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱AlphaVideo 。
开源地址:https://alpha-video.github.io/
AlphaVideo在物体跟踪任务(MOT)和行为理解(AVA单模型)上都达到最高准确率 , 相比SlowFast[4](AVA单模型)有12.6%的性能提升 。
文章图片
图1:动作理解任务的时空信息特征图 。 左:输入序列;右:空间特征更关注物体形状 , 时间特征更关注物体运动趋势 。
00:00/00:00倍速
图2:AlphaVideo中的行为理解(Alphaction)
文章图片
图3:时空概念提取展示
人类视觉理解机理
在人类的视觉认知过程中 , 时间和空间概念是解耦的 。 神经科学领域的研究发现在人类的记忆形成过程中 , 时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体 , 进而形成完整的记忆[1] 。
新技能:自主学习时空概念
通过模仿人类的认知机制 , 卢策吾团队提出了应用于高维度信息的半耦合结构模型(SCS) 。
SCS自主发掘(awareness)时间-空间概念 , 并让他们耦合协作以理解序列信息 。 这种能力代表着机器学习模型自主掌握了时空的概念 , 这是一种更高层的智能 。 更进一步 , 时空信息概念的分离也让「概念编辑」成为可能 。
半耦合结构模型(SCS)
半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路) , 并在分别处理时间和空间信息之后将二者耦合(模仿海马体):
文章图片
该研究通过堆叠这种半耦合的元结构来构建深度模型 , 其中时空信息始终以先解耦再融合的模式向后流动 。
为了让h_s和h_t各司其职 , 研究者将h_s和h_t设计为不对称的结构 , 同时 , 使用两个特殊的监督目标r_s、r_t来进一步约束二者关注各自的工作 。
该研究进一步提出了一种训练注意力机制 。 这种注意力机制控制模型在优化过程中学习哪种信息 。 例如在视频信息中 , 模型可以优先将注意力集中在空间信息上 , 待空间信息有效且稳定时 , 再逐步将模型训练的注意力转换到时间信息上 。
SCS的表现如何?
该研究展示了SCS在多项任务中与传统LSTM的性能对比结果:
文章图片
SCS在视频动作分类、自动驾驶、天气预报等4个任务上的性能均超越传统的序列模型 。
相关代码参见:https://doi.org/10.5281/zenodo.3679134
概念编辑
有了时空分离的能力 , SCS就可以初步做到「概念编辑」 。 比如 , 通过编辑空间概念且保留时间概念 , 我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹 。 这样就能以较小的代价实现模型的泛化 , 同时也拓宽了模型的使用场景 , 降低了部署难度 。 如图6所示:
文章图片
图6:概念编辑demo
研究者让计算机看FlappyBird的视频 , 然后看一张静态的Mario图片(外观形象) 。 在这个过程中 , 模型并没有接触到任何Mario在管道中穿梭的运动信息 。 但通过「概念编辑」 , 在测试时SCS可以准确地预测Mario的运动轨迹 。
视频理解工具箱AlphaVideo
在视频理解工具箱AlphaVideo中 , 除了上述SCS时空概念分解 , 研究者还提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction 。 使用一行代码 , 即可调用预训好的各类模型 。
AlphAction
AlphAction是面向行为理解的开源系统 , 基于MVIG提出的交互理解与异步训练策略[5]在AVA数据集上达到最优准确率 , 速度达到10帧每秒 。 其中包含的15个开源常见行为基本模型的mAP达到约70% , 接近可以商用的水平 。
TubeTK
TubeTK是上海交大MVIG组提出的基于Bounding-Tube的单阶段训练模型(CVPR2020-oral) , 是首个单阶段端对端训练的多目标跟踪模型 。 它在MOT-16数据集上达到了66.9MOTA的精度 , 是目前online模型仅在MOT训练数据下达到的最高精度[3] 。
文章图片
图7:TubeTK可视化结果
文章图片
图8:Bounding-Tube示意图 。 使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标(图中黄色框) 。
参考文献
[1]Kitamura,T.etal.Entorhinalcorticaloceancellsencodespecificcontextsanddrivecontext-specificfearmemory.Neuron87,1317–1331(2015).
[2]Simonyan,K.&Zisserman,A.Two-streamconvolutionalnetworksforactionrecognitioninvideos.InProceedingsofthe27thInternationalConferenceonNeuralInformationProcessingSystems568–576(ACM,2014).
[3]https://motchallenge.net/tracker/3184&chl=5
[4]Feichtenhofer,C.,Fan,H.,Malik,J.,&He,K.(2019).Slowfastnetworksforvideorecognition.InProceedingsoftheIEEEInternationalConferenceonComputerVision(pp.6202-6211).
【一行代码调用预训练模型,上海交大开源视频理解工具箱AlphaVideo】[5]Tang,J.,Xia,J.,Mu,X.,Pang,B.,&Lu,C.(2020).AsynchronousInteractionAggregationforActionDetection.arXivpreprintarXiv:2004.07485.
推荐阅读
- 青岛自驾游车友会|热死了,车子的空调怎么用?老司机:空调用不对,油耗高一倍
- 《陈情令之羡乱浮生》92:白玉鼎
- 超级计算机|他们搬动了百万行代码“大山”
- 每月|每月“逢五”统一行动,玉林交警严查各类交通违法行为
- 用电负荷|发改委:8月全国日发电量和统调用电负荷快速攀升
- 发改委|国家发改委:8月以来全国日发电量和统调用电负荷快速攀升
- |中国第三次造富时代,又一行业诞生顶级富豪,任正非马云就在其中
- |中国最“深藏不露”一行!国人被疯狂“割韭菜”?竟有千万市场?
- A9VG电玩部落|《匿名代码》延期数次的理由 志仓千代丸采访
- Android系统|一行错误代码:5 亿美元没了,项目关闭;Google 继续尝试在 Chrome 86 中隐藏完整网址