文章插图
当然,论文的作者之一,前 FAIR 研究科学家、现纽约大学助理教授谢赛宁否认了自己与 Sora 的直接关系 。毕竟 Meta 与 OpenAI 互为竞争对手 。
Sora 成功的背后 , 还有哪些重要技术?
除此之外 , Sora 的成功,还有一系列近期业界、学界的计算机视觉、自然语言处理的技术进展作为支撑 。
简单浏览一遍参考文献清单,我们发现,这些研究出自谷歌、Meta、微软、斯坦福、MIT、UC 伯克利、Runway 等多个机构,其中不乏华人学者的成果 。
归根结底,Sora 今天的成就源自于整个 AI 社区多年来的求索 。
文章插图
从 32 篇参考文献中,我们选择了几篇展开介绍:
Ha,David , and Jürgen Schmidhuber. “World models.” arXiv preprint arXiv:1803.10122 (2018).
文章插图
- 论文标题:World Models
- 作者:David Ha、Jurgen Schmidhuber
- 机构:谷歌大脑、NNAISENSE(Schmidhuber 创立的公司)、Swiss AI Lab
- 论文链接:https://arxiv.org/pdf/1803.10122.pdf
机器之心报道:《模拟世界的模型:谷歌大脑与 Jürgen Schmidhuber 提出‘人工智能梦境’》
Yan,Wilson,et al. “Videogpt: Video generation using vq-vae and transformers.” arXiv preprint arXiv:2104.10157 (2021).
文章插图
- 论文标题:VideoGPT: Video Generation using VQ-VAE and Transformers
- 作者:Wilson Yan、Yunzhi Zhang、Pieter Abbeel、Aravind Srinivas
- 机构:UC 伯克利
- 论文链接:https://arxiv.org/pdf/2104.10157.pdf
文章插图
Wu, Chenfei,et al. “Nüwa: Visual synthesis pre-training for neural visual world creation.” European conference on computer vision. Cham: Springer Nature Switzerland,2022.
文章插图
- 论文标题:NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion
- 作者:Chenfei Wu、Jian Liang、Lei Ji、Fan Yang、Yuejian Fang、Daxin Jiang、Nan Duan
- 机构:微软亚洲研究院、北京大学
- 论文链接:https://arxiv.org/pdf/2111.12417.pdf
为了同时覆盖语言、图像和视频的不同场景,NÜWA 采用了 3D Transformer 编码器 - 解码器框架,它不仅可以处理作为三维数据的视频,还可以分别用于处理一维和二维数据的文本和图像 。
文章插图
该框架还包含一种 3D Nearby Attention (3DNA) 机制 , 以考虑空间和时间上的局部特征 。3DNA 不仅降低了计算复杂度 , 还提高了生成结果的视觉质量 。与几个强大的基线相比,NÜWA 在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果,还显示出惊人的零样本学习能力 。
机器之心报道:《AI 版‘女娲’来了!文字生成图像、视频,8 类任务一个模型搞定》
推荐阅读
- Sora将改写什么
- Sora炸裂科技圈:真神还是焦虑制造机
- 人人都能看懂的Sora技术报告
- 揭秘头条赚钱之道:掌握这些技巧,轻松实现收益最大化!
- 抖音晒单功能在哪打开,抖音强晒单技术,抖音晒单怎么弄
- 震撼!零差评谍战剧大揭秘,你绝对不能错过!不二刷都对不起
- 颜值爆表却零绯闻?宁静揭秘娱乐圈潜规则真相,主持人尴尬难言!
- Sora为什么是AGI的又一个里程碑时刻?
- 深度学习的未来:趋势和新兴技术
- 韩国第一网红!犯规身材和技术的完美结合