一行代码调用预训练模型，上海交大开源视频理解工具箱AlphaVideo 上海交通大学卢策吾团队在《

机器之心发布
机器之心编辑部
近期，上海交通大学卢策吾团队在《自然-机器智能》上发表视觉序列理解的研究成果，通过模仿人类的认知机制，提出了可应用于高维度信息的半耦合结构模型（SCS）。此外，他们还开源了视频理解工具箱AlphaVideo 。
近期，上海交通大学卢策吾团队在《自然-机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complexsequentialunderstandingthroughtheawarenessofspatialandtemporalconcepts》。
与此同时，该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱AlphaVideo 。
开源地址：https://alpha-video.github.io/
AlphaVideo在物体跟踪任务（MOT）和行为理解（AVA单模型）上都达到最高准确率，相比SlowFast[4]（AVA单模型）有12.6%的性能提升。

文章图片
图1：动作理解任务的时空信息特征图。左：输入序列；右：空间特征更关注物体形状，时间特征更关注物体运动趋势。
00:00/00:00倍速
图2：AlphaVideo中的行为理解（Alphaction）

文章图片
图3：时空概念提取展示
人类视觉理解机理
在人类的视觉认知过程中，时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中，时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体，进而形成完整的记忆[1] 。
新技能：自主学习时空概念
通过模仿人类的认知机制，卢策吾团队提出了应用于高维度信息的半耦合结构模型（SCS）。
SCS自主发掘（awareness）时间-空间概念，并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念，这是一种更高层的智能。更进一步，时空信息概念的分离也让「概念编辑」成为可能。
半耦合结构模型（SCS）
半耦合结构首先解耦时空信息（模仿人脑中的两条信息通路），并在分别处理时间和空间信息之后将二者耦合（模仿海马体）：

文章图片
该研究通过堆叠这种半耦合的元结构来构建深度模型，其中时空信息始终以先解耦再融合的模式向后流动。
为了让h_s和h_t各司其职，研究者将h_s和h_t设计为不对称的结构，同时，使用两个特殊的监督目标r_s、r_t来进一步约束二者关注各自的工作。
该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中，模型可以优先将注意力集中在空间信息上，待空间信息有效且稳定时，再逐步将模型训练的注意力转换到时间信息上。
SCS的表现如何？
该研究展示了SCS在多项任务中与传统LSTM的性能对比结果：

文章图片
SCS在视频动作分类、自动驾驶、天气预报等4个任务上的性能均超越传统的序列模型。
相关代码参见：https://doi.org/10.5281/zenodo.3679134
概念编辑
有了时空分离的能力， SCS就可以初步做到「概念编辑」。比如，通过编辑空间概念且保留时间概念，我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化，同时也拓宽了模型的使用场景，降低了部署难度。如图6所示：

文章图片
图6：概念编辑demo
研究者让计算机看FlappyBird的视频，然后看一张静态的Mario图片（外观形象）。在这个过程中，模型并没有接触到任何Mario在管道中穿梭的运动信息。但通过「概念编辑」，在测试时SCS可以准确地预测Mario的运动轨迹。
视频理解工具箱AlphaVideo
在视频理解工具箱AlphaVideo中，除了上述SCS时空概念分解，研究者还提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction 。使用一行代码，即可调用预训好的各类模型。
AlphAction
AlphAction是面向行为理解的开源系统，基于MVIG提出的交互理解与异步训练策略[5]在AVA数据集上达到最优准确率，速度达到10帧每秒。其中包含的15个开源常见行为基本模型的mAP达到约70% ，接近可以商用的水平。
TubeTK
TubeTK是上海交大MVIG组提出的基于Bounding-Tube的单阶段训练模型（CVPR2020-oral），是首个单阶段端对端训练的多目标跟踪模型。它在MOT-16数据集上达到了66.9MOTA的精度，是目前online模型仅在MOT训练数据下达到的最高精度[3] 。

文章图片
图7：TubeTK可视化结果

文章图片
图8：Bounding-Tube示意图。使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标（图中黄色框）。
参考文献
[1]Kitamura,T.etal.Entorhinalcorticaloceancellsencodespecificcontextsanddrivecontext-specificfearmemory.Neuron87,1317–1331(2015).
[2]Simonyan,K.&Zisserman,A.Two-streamconvolutionalnetworksforactionrecognitioninvideos.InProceedingsofthe27thInternationalConferenceonNeuralInformationProcessingSystems568–576(ACM,2014).
[3]https://motchallenge.net/tracker/3184&chl=5
[4]Feichtenhofer,C.,Fan,H.,Malik,J.,&He,K.(2019).Slowfastnetworksforvideorecognition.InProceedingsoftheIEEEInternationalConferenceonComputerVision(pp.6202-6211).
【一行代码调用预训练模型，上海交大开源视频理解工具箱AlphaVideo】[5]Tang,J.,Xia,J.,Mu,X.,Pang,B.,&Lu,C.(2020).AsynchronousInteractionAggregationforActionDetection.arXivpreprintarXiv:2004.07485.

一行代码调用预训练模型，上海交大开源视频理解工具箱AlphaVideo

推荐阅读

神话里的混沌是啥意思道教关于混沌的描述

产品|如何正确选购充电暖手宝？安全提醒来了

近期超级热门的5部综艺节目最近的热门综艺节目有哪些？

孟晚舟|孟晚舟案再开庭，揭开“惊天丑闻”

网传博白发现1名确诊病例的密接者？官方回应

三弄|20200912《新闻联播》解读，欧盟停止数据传输给美国！|

安装、使用恒温水龙头有哪些注意事项

女生怎样练出一个美背

祁门红茶特点

Selina|20年后再看S.H.E, 为何她们三人差距那么大？

【微信升级】微信拍一拍怎么玩？怎么修改后缀？怎么拍一拍好友？|【微信升级】微信拍一拍怎么玩？怎么修改后缀？怎么拍一拍好友？

李亚鹏|李亚鹏：我的石头值3亿，四合院价值8亿，法院：限高，负债4000万

中年|募集资金没按约定投资竟用于个人消费中金国瑞案逾18亿元未兑付

打金针减肥效果怎么样

男子误遭3岁女儿枪杀▲3岁娃不小心扣动扳机，美国一男子误遭枪杀

弈客围棋|金成龙翻案！法院判韩国棋院处罚违法需撤销，原创

香辣虾怎么做最好吃家常做法,香辣虾的做法最正宗的做法窍门-

主角|5本主角无敌嚣张的玄幻小说，全程高能不虐主，看得人很爽快

网络电视机顶盒哪个牌子好？选购必看的三大入门诀窍！

[他人婚]被曝插足他人婚姻《青你2》选手申冰退赛