揭秘Sora技术路线：核心成员来自伯克利，基础论文曾被CVPR拒稿 _Sora

来源机器之心

至此已成艺术的 Sora ，是从哪条技术路线发展出来的？

最近几天，据说全世界的风投机构开会都在大谈 Sora 。自去年初 ChatGPT 引发全科技领域军备竞赛之后，已经没有人愿意在新的 AI 生成视频赛道上落后了。
在这个问题上，人们早有预判，但也始料未及：AI 生成视频，是继文本生成、图像生成以后技术持续发展的方向，此前也有不少科技公司抢跑推出自己的视频生成技术。
不过当 OpenAI 出手发布 Sora 之后，我们却立即有了‘发现新世界(6.080, -0.04, -0.65%)’的感觉 —— 效果和之前的技术相比高出了几个档次。

文章插图
Sora 生成的视频，美国西部的淘金时代。感觉加上个解说和背景音乐就可以直接用在专题片里了。
在 Sora 及其技术报告推出后，我们看到了长达 60 秒，高清晰度且画面可控、能多角度切换的高水平效果。在背后的技术上，研究人员训练了一个基于 Diffusion Transformer（DiT）思路的新模型，其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作。
正如华为诺亚方舟实验室首席科学家刘群博士所言，Sora 展现了生成式模型的潜力（特别是多模态生成方面）显然还很大。加入预测模块是正确的方向。至于未来发展，还有很多需要我们探索，现在还没有像 Transformer 之于 NLP 领域那样的统一方法。
想要探求未来的路怎么走，我们或许可以先思考一下之前的路是怎么走过的。那么， Sora 是如何被 OpenAI 发掘出来的？
从 OpenAI 的技术报告末尾可知，相比去年 GPT-4 长篇幅的作者名单，Sora 的作者团队更简洁一些，需要点明的仅有 13 位成员：

文章插图
这些参与者中，已知的核心成员包括研发负责人 Tim Brooks、William Peebles、系统负责人 Connor Holmes 等。这些成员的信息也成为了众人关注的焦点。
比如，Sora 的共同领导者 Tim Brooks，博士毕业于 UC Berkeley 的‘伯克利人工智能研究所’BAIR ，导师为 Alyosha Efros 。

文章插图
在博士就读期间，他曾提出了 InstructPix2Pix，他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作，并在英伟达研究过视频生成模型。
另一位共同领导者 William （Bill） Peebles 也来自于 UC Berkeley ，他在 2023 年刚刚获得博士学位，同样也是 Alyosha Efros 的学生。在本科时，Peebles 就读于麻省理工，师从 Antonio Torralba 。

文章插图
值得注意的是，Peebles 等人的一篇论文被认为是这次 Sora 背后的重要技术基础之一。
论文《Scalable diffusion models with transformers》，一看名字就和 Sora 的理念很有关联，该论文入选了计算机视觉顶会 ICCV 2023 。

文章插图
论文链接：https：//arxiv.org/abs/2212.09748
不过，这项研究在发表的过程还遇到了一些坎坷。上周五 Sora 发布时，图灵奖获得者、Meta 首席科学家 Yann LeCun 第一时间发推表示：该研究是我的同事谢赛宁和前学生 William Peebles 的贡献，不过因为‘缺乏创新’ ，先被 CVPR 2023 拒绝，后来被 ICCV 2023 接收。

文章插图
具体来说，这篇论文提出了一种基于 transformer 架构的新型扩散模型即 DiT 。在该研究中，研究者训练了潜在扩散模型，用对潜在 patch 进行操作的 Transformer 替换常用的 U.NET 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer （DiT）的可扩展性。
研究者发现，通过增加 Transformer 深度 / 宽度或增加输入 token 数量，具有较高 Gflops 的 DiT 始终具有较低的 FID 。除了良好的可扩展性之外， DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基准上的性能优于所有先前的扩散模型，在后者上实现了 2.27 的 FID SOTA 数据。
目前这篇论文的引用量仅有 191 。同时可以看到，William （Bill） Peebles 所有研究中引用量最高的是一篇名为《GAN 无法生成什么》的论文：