时间、空间可控的视频生成走进现实，阿里大模型新作火了 _大模型

在 AI 绘画领域，阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 Contro.NET 引领了可控图像生成的理论发展。但是，业界在可控视频生成上的探索依旧处于相对空白的状态。
相比于图像生成，可控的视频更加复杂，因为除了视频内容的空间的可控性之外，还需要满足时间维度的可控性。基于此，阿里巴巴和蚂蚁集团的研究团队率先做出尝试并提出了 VideoComposer，即通过组合式生成范式同时实现视频在时间和空间两个维度上的可控性。

文章插图
论文地址：
https://arxiv.org/abs/2306.02018
项目主页：
https://videocomposer.Github.io
前段时间，阿里巴巴在魔搭社区和 Hugging Face 低调开源了文生视频大模型，意外地受到国内外开发者的广泛关注，该模型生成的视频甚至得到马斯克本尊的回应，模型在魔搭社区上连续多天获得单日上万次国际访问量。

文章插图

文章插图
Text-to-Video 在推特
VideoComposer 作为该研究团队的最新成果，又一次受到了国际社区的广泛关注。

文章插图

文章插图
VideoComposer 在推特
事实上，可控性已经成为视觉内容创作的更高基准，其在定制化的图像生成方面取得了显着进步，但在视频生成领域仍然具有三大挑战：
复杂的数据结构，生成的视频需同时满足时间维度上的动态变化的多样性和时空维度的内容一致性；
复杂的引导条件，已存在的可控的视频生成需要复杂的条件是无法人为手动构建的。比如 Runway 提出的 Gen-1/2 需要依赖深度序列作条件，其能较好的实现视频间的结构迁移，但不能很好的解决可控性问题；
缺乏运动可控性，运动模式是视频即复杂又抽象的属性，运动可控性是解决视频生成可控性的必要条件。
在此之前，阿里巴巴提出的 Composer 已经证明了组合性对图像生成可控性的提升具有极大的帮助，而 VideoComposer 这项研究同样是基于组合式生成范式，在解决以上三大挑战的同时提高视频生成的灵活性。具体是将视频分解成三种引导条件，即文本条件、空间条件、和视频特有的时序条件，然后基于此训练 Video LDM (Video Latent Diffusion Model) 。特别地，其将高效的 Motion Vector 作为重要的显式的时序条件以学习视频的运动模式，并设计了一个简单有效的时空条件编码器 STC-encoder，保证条件驱动视频的时空连续性。在推理阶段，则可以随机组合不同的条件来控制视频内容。
实验结果表明，VideoComposer 能够灵活控制视频的时间和空间的模式，比如通过单张图、手绘图等生成特定的视频，甚至可以通过简单的手绘方向轻松控制目标的运动风格。该研究在 9 个不同的经典任务上直接测试 VideoComposer 的性能，均获得满意的结果，证明了 VideoComposer 通用性。

文章插图
图（a-c）VideoComposer 能够生成符合文本、空间和时间条件或其子集的视频；（d）VideoComposer 可以仅仅利用两笔画来生成满足梵高风格的视频，同时满足预期运动模式（红色笔画）和形状模式（白色笔画）
方法介绍

文章插图

文章插图
VideoComposer
组合条件。VideoComposer 将视频分解为三种不同类型的条件，即文本条件、空间条件和关键的时序条件，它们可以共同确定视频中的空间和时间模式。VideoComposer 是一个通用的组合式视频生成框架，因此，可以根据下游应用程序将更多的定制条件纳入 VideoComposer，不限于下述列出的条件：