Sora为什么是AGI的又一个里程碑时刻?( 二 )


其次 , 在Sora身上第一次展现了扩散模型与大模型能力的完美融合 。
AI视频就像一部电影大片,取决于剧本和特效两个重要元素 。其中,剧本对应着AI视频生成过程中的“逻辑”,特效则对应着“效果” 。为了实现“逻辑”和“效果”,背后分化出了两条技术路径扩散模型和大模型 。
去年年底,光锥智能就曾预判到,为了同时能够满足效果和逻辑 , 扩散和大模型两条路线终将走向融合 。没想到,OpenAI如此迅速地就解决了这个难题 。

Sora为什么是AGI的又一个里程碑时刻?

文章插图
(图源:OpenAI官网)
OpenAI 在技术报告中画重点提到:“我们将各种类型的视觉数据转化为统一表示法的方法,这种表示法可用于生成模型的大规模训练 。”
具体来看,OpenAI将视频画面的每一帧都编码转化为了一个个的视觉补?。╬atches),每个补丁都类似于GPT中的一个token , 成为了视频、图像中的最小衡量单位,并且可以随时随地被打破、被重组 。找到了统一数据的方式,统一了度量衡,也就找到了打通扩散模型和大模型的桥梁 。
在整个生成的过程中 , 扩散模型仍在负责生成效果的部分,增加大模型Transformer的注意力机制后,就多了对生成的预测、推理能力,这也就解释了Sora为什么能够从现有获取的静态图像中生成视频,还能扩展现有视频或填充缺失的画面帧 。
发展至今,视频模型已经呈现出复合的趋势,模型走向融合的同时 , 技术也在走向复合 。
把之前沉淀的技术积累运用到视觉模型上,也成为了OpenAI的优势 。在Sora文生视频的训练过程中,OpenAI就引入了 DALL-E3和GPT的语言理解能力 。据OpenAI表示,DALL-E3、GPT基础上进行训练 , 能够使Sora准确地按照用户提示生成高质量的视频 。
一套组合拳下来,结果就是出现了模拟能力,也就构成了“世界模拟器”的基础 。
“我们发现,视频模型在进行大规模训练时,会表现出许多有趣的新兴能力 。这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面 。这些特性的出现并没有对三维、物体等产生任何明确的归纳偏差——它们纯粹是规模现象”,OpenAI表示道 。
“模拟”之所以能够如此炸裂,根本的原因在于,用大模型创造出不存在的事物人们已经习以为常,但是能够准确地理解物理世界运转逻辑,例如力是如何相互作用的 , 摩擦是如何产生的,篮球是如何打出抛物线的等等,这些都是以前任何模型都无法完成的事情,也是Sora超越视频生成层面的根本意义所在 。
不过,从demo到实际成品 , 可能是惊喜也可能是惊吓 。Meta首席科学家杨立昆就直接对Sora提出了质疑,他表示:“仅凭能够根据提示生成逼真的视频,并不能说明系统真正理解了物理世界 。生成过程与基于世界模型的因果预测不同 , 生成式模型只需要从可能性空间中找到一个合理的样本即可,而无需理解和模拟真实世界的因果关系 。”
齐镗泉也表示,虽然OpenAI验证了基于世界模型的文生视频大模型是可行的 , 但也存在物理交互的准确性难点,尽管Sora能够模拟一些基本的物理交互,但它在处理更复杂的物理现象时可能会遇到困难;长期依赖关系的处理存在挑战,即如何保持时间上的一致性和逻辑性;空间细节的精确性,处理空间细节方面如果不够精确,可能影响到视频内容的准确性和可信度 。
颠覆视频,但远不止视频
Sora成为世界模拟器或许是很久以后的事情,但是就生成视频而言,已经对现在的世界产生了影响 。
第一类就是解决之前技术上面无法突破的问题,推动一些行业迈向新的阶段 。
最典型的就是影视制作行业,Sora这回最具革命性的能力就是最长生成视频长度达到了1分钟 。作为参考 , 大热门Pika所能生成的长度在3秒、Runway的Gen-2生成长度在18秒,这意味着有了Sora以后,AI视频将能成为真正的生产力,实现降本增效 。
陈坤告诉光锥智能,在Sora诞生前 , 其利用AI视频工具制作科幻电影的成本已经下降至了一半,Sora落地后,更加值得期待 。
Sora发布后,令他印象最深刻的是一个海豚骑车的demo 。在那个视频中,上半身是海豚 , 下半身是人的两条腿,腿上还穿了鞋子,在一种极具诡异性的画风中,海豚完成了作为人骑自行车的动作 。


推荐阅读