Sora为什么是AGI的又一个里程碑时刻？ _Sora

文 | 光锥智能，作者 | 郝鑫，编辑｜王一粟、刘雨琦

2024年伊始，AI target=_blank class=infotextkey>OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora 。
一如一年前的ChatGPT，Sora被认为是AGI（通用人工智能）的又一个里程碑时刻。
“Sora意味着AGI实现将从10年缩短到1年”，360董事长周鸿祎作出预判。
但这个模型如此轰动，并不只是因为AI生成的视频时间更长、清晰度更高，而是OpenAI已经超越过去所有AIGC的能力，生成了一个与真实物理世界相关的视频内容。
无厘头的赛博朋克固然酷炫，但真实世界中的一切如何让AI重现才更具意义。
为此，OpenAI提出了一个全新的概念——世界模拟器。
在OpenAI官方出具的技术报告中，对Sora的定位为“作为世界模拟器的视频生成模型” ， “我们的研究结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。”

文章插图
（图源：OpenAI官网）
OpenAI认为， Sora为能够理解和模拟真实世界的模型奠定了基?。?这将是实现AGI的一个重要里程碑。凭借这一点，就彻底与AI视频赛道的Runway、Pika等公司拉开了一个段位。

文章插图
从文字（ChatGPT）到图片（DALL·E ）再到视频（Sora），对OpenAI来说，仿佛在搜集一张张的拼图，试图通过影像媒介形态彻底打破虚拟与现实的边界，成为电影“头号玩家”一般的存在。
如果说苹果Vision Pro是头号玩家的硬件外显，那么一个能自动构建仿真虚拟世界的AI系统，才是灵魂。
“语言模型近似人脑，视频模型近似物理世界” ，爱丁堡大学的博士生Yao Fu表示。
“OpenAI的野心大得超出了所有人的想象，但好像也只有它能做到”，多位AI创业者对光锥智能感叹道。
Sora如何成为“世界模拟器”？
OpenAI新发布的Sora模型，一脚踹开了2024年AI视频赛道的大门，彻底与2023年以前的旧世界划出了分界线。
在其一口气释出的48个演示视频中，光锥智能发现过去AI视频被诟病的问题大部分得到了解决：更清晰的生成画面、更逼真的生成效果、更准确的理解能力、更顺畅的逻辑理解能力、更稳定和一致性的生成结果等等。
但这一切也不过是OpenAI显现出的冰山一角，因为OpenAI从一开始瞄准的就不是视频，而是所有存在的影像。
影像是一个更大的概念，视频是其中的一个子集，例如大街上滚动的大屏、游戏世界的虚拟场景等等。OpenAI要做的事情，是要以视频为切入口，涵盖一切影像，模拟、理解现实世界，也就是其强调的“世界模拟器”概念。
正如AI电影《山海奇境》制作人、星贤文化陈坤告诉光锥智能，“OpenAI在向我们展示它在视频方面的能力，但真正的目的在于获取人们的反馈数据，去探索、预测人们想要生成的视频是什么样的。就像大模型训练一样，一旦工具开放，就相当于全世界的人在为其打工，通过不断标记、录入，让其世界模型变得越来越聪明。”
于是我们看到， AI视频成为了理解物理世界的第一个阶段，主要突出其作为“视频生成模型”的属性；发展到第二个阶段，才能作为“世界模拟器”提供价值。
抓住Sora“视频生成”属性的核心在于——找不同，即Sora和Runway、Pika的差异性体现在哪里？这个问题至关重要，因为某种程度上解释了Sora能够碾压的原因。
首先的一点，OpenAI沿用了训练大语言模型的思路，用大规模的视觉数据来训练一个具备通用能力的生成模型。
这与文生视频领域“专人专用”的逻辑完全不同。去年，Runway也有过类似的计划，被其称之为“通用世界模型”，思路大致相似，但没有后续，这回Sora倒是先一步完成了Runway的梦想。
据纽约大学助理教授谢赛宁推算， Sora参数量约为30亿，虽然对比GPT模型显得微不足道，但是这个数量级已经远超了Runway、Pika等一些公司，可以称得上是降维打击。
万兴科技AI创新中心总经理齐镗泉，评价Sora的成功再次验证了“大力出奇迹”的可能性， “Sora依然遵循OpenAI的Scaling Law，靠大力出奇迹，大量数据，大模型和大量算力。Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型，构建文生视频模型，达到模拟世界的能力。”