揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

来源  机器之心

至此已成艺术的 Sora , 是从哪条技术路线发展出来的?
最近几天,据说全世界的风投机构开会都在大谈 Sora 。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了 。
在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术 。
不过当 OpenAI 出手发布 Sora 之后,我们却立即有了‘发现新世界(6.080, -0.04, -0.65%)’的感觉 —— 效果和之前的技术相比高出了几个档次 。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
Sora 生成的视频,美国西部的淘金时代 。感觉加上个解说和背景音乐就可以直接用在专题片里了 。
在 Sora 及其技术报告推出后,我们看到了长达 60 秒 , 高清晰度且画面可控、能多角度切换的高水平效果 。在背后的技术上,研究人员训练了一个基于 Diffusion Transformer(DiT)思路的新模型 , 其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作 。
正如华为诺亚方舟实验室首席科学家刘群博士所言,Sora 展现了生成式模型的潜力(特别是多模态生成方面)显然还很大 。加入预测模块是正确的方向 。至于未来发展,还有很多需要我们探索,现在还没有像 Transformer 之于 NLP 领域那样的统一方法 。
想要探求未来的路怎么走,我们或许可以先思考一下之前的路是怎么走过的 。那么 , Sora 是如何被 OpenAI 发掘出来的?
从 OpenAI 的技术报告末尾可知,相比去年 GPT-4 长篇幅的作者名单,Sora 的作者团队更简洁一些,需要点明的仅有 13 位成员:
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
这些参与者中 , 已知的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等 。这些成员的信息也成为了众人关注的焦点 。
比如,Sora 的共同领导者 Tim Brooks,博士毕业于 UC Berkeley 的‘伯克利人工智能研究所’BAIR , 导师为 Alyosha Efros 。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型 。
另一位共同领导者 William (Bill) Peebles 也来自于 UC Berkeley , 他在 2023 年刚刚获得博士学位,同样也是 Alyosha Efros 的学生 。在本科时,Peebles 就读于麻省理工,师从 Antonio Torralba 。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
值得注意的是,Peebles 等人的一篇论文被认为是这次 Sora 背后的重要技术基础之一 。
论文《Scalable diffusion models with transformers》,一看名字就和 Sora 的理念很有关联,该论文入选了计算机视觉顶会 ICCV 2023 。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
论文链接:https://arxiv.org/abs/2212.09748
不过,这项研究在发表的过程还遇到了一些坎坷 。上周五 Sora 发布时,图灵奖获得者、Meta 首席科学家 Yann LeCun 第一时间发推表示:该研究是我的同事谢赛宁和前学生 William Peebles 的贡献,不过因为‘缺乏创新’ , 先被 CVPR 2023 拒绝 , 后来被 ICCV 2023 接收 。
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

文章插图
具体来说,这篇论文提出了一种基于 transformer 架构的新型扩散模型即 DiT 。在该研究中,研究者训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U.NET 主干网络 。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性 。
研究者发现,通过增加 Transformer 深度 / 宽度或增加输入 token 数量 , 具有较高 Gflops 的 DiT 始终具有较低的 FID 。除了良好的可扩展性之外 , DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型,在后者上实现了 2.27 的 FID SOTA 数据 。
目前这篇论文的引用量仅有 191 。同时可以看到,William (Bill) Peebles 所有研究中引用量最高的是一篇名为《GAN 无法生成什么》的论文:
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿


推荐阅读