揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿( 二 )


文章插图
当然,论文的作者之一,前 FAIR 研究科学家、现纽约大学助理教授谢赛宁否认了自己与 Sora 的直接关系 。毕竟 Meta 与 OpenAI 互为竞争对手 。
Sora 成功的背后 , 还有哪些重要技术?
除此之外 , Sora 的成功,还有一系列近期业界、学界的计算机视觉、自然语言处理的技术进展作为支撑 。
简单浏览一遍参考文献清单,我们发现,这些研究出自谷歌、Meta、微软、斯坦福、MIT、UC 伯克利、Runway 等多个机构,其中不乏华人学者的成果 。
归根结底,Sora 今天的成就源自于整个 AI 社区多年来的求索 。

揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
从 32 篇参考文献中,我们选择了几篇展开介绍:
Ha,David ,  and Jürgen Schmidhuber. “World models.” arXiv preprint arXiv:1803.10122 (2018).
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
  • 论文标题:World Models
  • 作者:David Ha、Jurgen Schmidhuber
  • 机构:谷歌大脑、NNAISENSE(Schmidhuber 创立的公司)、Swiss AI Lab
  • 论文链接:https://arxiv.org/pdf/1803.10122.pdf
这是一篇六年前的论文,探索的主题是为强化学习环境建立生成神经网络模型 。世界模型可以在无监督的情况下快速训练,以学习环境的压缩空间和时间表示 。通过使用从世界模型中提取的特征作为代理的输入,研究者发现能够训练出非常紧凑和简单的策略,从而解决所需的任务,甚至可以完全在由世界模型生成的幻梦中训练代理,并将该策略移植回实际环境中 。
机器之心报道:《模拟世界的模型:谷歌大脑与 Jürgen Schmidhuber 提出‘人工智能梦境’》
Yan,Wilson,et al. “Videogpt: Video generation using vq-vae and transformers.” arXiv preprint arXiv:2104.10157 (2021).
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
  • 论文标题:VideoGPT: Video Generation using VQ-VAE and Transformers
  • 作者:Wilson Yan、Yunzhi Zhang、Pieter Abbeel、Aravind Srinivas
  • 机构:UC 伯克利
  • 论文链接:https://arxiv.org/pdf/2104.10157.pdf
这篇论文提出的 VideoGPT 可用于扩展基于似然的生成对自然视频进行建模 。Video-GPT 将通常用于图像生成的 VQ-VAE 和 Transformer 模型以最小的修改改编到视频生成领域,研究者利用 VQVAE 通过采用 3D 卷积和轴向自注意力学习降采样的原始视频离散潜在表示,然后使用简单的类似 GPT 的架构进行自回归,使用时空建模离散潜在位置编码 。VideoGPT 结构下图:
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
Wu, Chenfei,et al. “Nüwa: Visual synthesis pre-training for neural visual world creation.” European conference on computer vision. Cham: Springer Nature Switzerland,2022.
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
  • 论文标题:NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion
  • 作者:Chenfei Wu、Jian Liang、Lei Ji、Fan Yang、Yuejian Fang、Daxin Jiang、Nan Duan
  • 机构:微软亚洲研究院、北京大学
  • 论文链接:https://arxiv.org/pdf/2111.12417.pdf
相比于此前只能分别处理图像和视频、专注于生成其中一种的多模态模型,NÜWA 是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果 。
为了同时覆盖语言、图像和视频的不同场景,NÜWA 采用了 3D Transformer 编码器 - 解码器框架,它不仅可以处理作为三维数据的视频,还可以分别用于处理一维和二维数据的文本和图像 。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
该框架还包含一种 3D Nearby Attention (3DNA) 机制 , 以考虑空间和时间上的局部特征 。3DNA 不仅降低了计算复杂度 , 还提高了生成结果的视觉质量 。与几个强大的基线相比,NÜWA 在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果,还显示出惊人的零样本学习能力 。
机器之心报道:《AI 版‘女娲’来了!文字生成图像、视频,8 类任务一个模型搞定》


推荐阅读