揭秘Sora技术路线：核心成员来自伯克利，基础论文曾被CVPR拒稿( 二 ) _Sora

文章插图
当然，论文的作者之一，前 FAIR 研究科学家、现纽约大学助理教授谢赛宁否认了自己与 Sora 的直接关系。毕竟 Meta 与 OpenAI 互为竞争对手。
Sora 成功的背后，还有哪些重要技术？
除此之外， Sora 的成功，还有一系列近期业界、学界的计算机视觉、自然语言处理的技术进展作为支撑。
简单浏览一遍参考文献清单，我们发现，这些研究出自谷歌、Meta、微软、斯坦福、MIT、UC 伯克利、Runway 等多个机构，其中不乏华人学者的成果。
归根结底，Sora 今天的成就源自于整个 AI 社区多年来的求索。

文章插图
从 32 篇参考文献中，我们选择了几篇展开介绍：
Ha，David ， and Jürgen Schmidhuber． “World models．” arXiv preprint arXiv：1803.10122 （2018）．

文章插图

论文标题：World Models
作者：David Ha、Jurgen Schmidhuber
机构：谷歌大脑、NNAISENSE（Schmidhuber 创立的公司）、Swiss AI Lab
论文链接：https：//arxiv.org/pdf/1803.10122.pdf

这是一篇六年前的论文，探索的主题是为强化学习环境建立生成神经网络模型。世界模型可以在无监督的情况下快速训练，以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入，研究者发现能够训练出非常紧凑和简单的策略，从而解决所需的任务，甚至可以完全在由世界模型生成的幻梦中训练代理，并将该策略移植回实际环境中。
机器之心报道：《模拟世界的模型：谷歌大脑与 Jürgen Schmidhuber 提出‘人工智能梦境’》
Yan，Wilson，et al． “Videogpt： Video generation using vq-vae and transformers．” arXiv preprint arXiv：2104.10157 （2021）．

文章插图

论文标题：VideoGPT： Video Generation using VQ-VAE and Transformers
作者：Wilson Yan、Yunzhi Zhang、Pieter Abbeel、Aravind Srinivas
机构：UC 伯克利
论文链接：https：//arxiv.org/pdf/2104.10157.pdf

这篇论文提出的 VideoGPT 可用于扩展基于似然的生成对自然视频进行建模。Video-GPT 将通常用于图像生成的 VQ-VAE 和 Transformer 模型以最小的修改改编到视频生成领域，研究者利用 VQVAE 通过采用 3D 卷积和轴向自注意力学习降采样的原始视频离散潜在表示，然后使用简单的类似 GPT 的架构进行自回归，使用时空建模离散潜在位置编码。VideoGPT 结构下图：

文章插图
Wu， Chenfei，et al． “Nüwa： Visual synthesis pre-training for neural visual world creation．” European conference on computer vision． Cham： Springer Nature Switzerland，2022．

文章插图

论文标题：NÜWA： Visual Synthesis Pre-training for Neural visUal World creAtion
作者：Chenfei Wu、Jian Liang、Lei Ji、Fan Yang、Yuejian Fang、Daxin Jiang、Nan Duan
机构：微软亚洲研究院、北京大学
论文链接：https：//arxiv.org/pdf/2111.12417.pdf

相比于此前只能分别处理图像和视频、专注于生成其中一种的多模态模型，NÜWA 是一个统一的多模态预训练模型，在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果。
为了同时覆盖语言、图像和视频的不同场景，NÜWA 采用了 3D Transformer 编码器 - 解码器框架，它不仅可以处理作为三维数据的视频，还可以分别用于处理一维和二维数据的文本和图像。

文章插图
该框架还包含一种 3D Nearby Attention （3DNA）机制，以考虑空间和时间上的局部特征。3DNA 不仅降低了计算复杂度，还提高了生成结果的视觉质量。与几个强大的基线相比，NÜWA 在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果，还显示出惊人的零样本学习能力。
机器之心报道：《AI 版‘女娲’来了！文字生成图像、视频，8 类任务一个模型搞定》