Sora为什么是AGI的又一个里程碑时刻?

文 | 光锥智能,作者 | 郝鑫,编辑|王一粟、刘雨琦
2024年伊始,AI target=_blank class=infotextkey>OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora 。
一如一年前的ChatGPT,Sora被认为是AGI(通用人工智能)的又一个里程碑时刻 。
“Sora意味着AGI实现将从10年缩短到1年”,360董事长周鸿祎作出预判 。
但这个模型如此轰动,并不只是因为AI生成的视频时间更长、清晰度更高,而是OpenAI已经超越过去所有AIGC的能力,生成了一个与真实物理世界相关的视频内容 。
无厘头的赛博朋克固然酷炫,但真实世界中的一切如何让AI重现才更具意义 。
为此,OpenAI提出了一个全新的概念——世界模拟器 。
在OpenAI官方出具的技术报告中 , 对Sora的定位为“作为世界模拟器的视频生成模型” , “我们的研究结果表明 , 扩展视频生成模型是构建物理世界通用模拟器的一条可行之路 。”
Sora为什么是AGI的又一个里程碑时刻?

文章插图
(图源:OpenAI官网)
OpenAI认为, Sora为能够理解和模拟真实世界的模型奠定了基?。?这将是实现AGI的一个重要里程碑 。凭借这一点,就彻底与AI视频赛道的Runway、Pika等公司拉开了一个段位 。
Sora为什么是AGI的又一个里程碑时刻?

文章插图
从文字(ChatGPT)到图片(DALL·E )再到视频(Sora),对OpenAI来说,仿佛在搜集一张张的拼图,试图通过影像媒介形态彻底打破虚拟与现实的边界 , 成为电影“头号玩家”一般的存在 。
如果说苹果Vision Pro是头号玩家的硬件外显 , 那么一个能自动构建仿真虚拟世界的AI系统 , 才是灵魂 。
“语言模型近似人脑,视频模型近似物理世界” , 爱丁堡大学的博士生Yao Fu表示 。
“OpenAI的野心大得超出了所有人的想象,但好像也只有它能做到”,多位AI创业者对光锥智能感叹道 。
Sora如何成为“世界模拟器”?
OpenAI新发布的Sora模型,一脚踹开了2024年AI视频赛道的大门,彻底与2023年以前的旧世界划出了分界线 。
在其一口气释出的48个演示视频中,光锥智能发现过去AI视频被诟病的问题大部分得到了解决:更清晰的生成画面、更逼真的生成效果、更准确的理解能力、更顺畅的逻辑理解能力、更稳定和一致性的生成结果等等 。
但这一切也不过是OpenAI显现出的冰山一角,因为OpenAI从一开始瞄准的就不是视频,而是所有存在的影像 。
影像是一个更大的概念,视频是其中的一个子集 , 例如大街上滚动的大屏、游戏世界的虚拟场景等等 。OpenAI要做的事情,是要以视频为切入口,涵盖一切影像,模拟、理解现实世界 , 也就是其强调的“世界模拟器”概念 。
正如AI电影《山海奇境》制作人、星贤文化陈坤告诉光锥智能,“OpenAI在向我们展示它在视频方面的能力 , 但真正的目的在于获取人们的反馈数据,去探索、预测人们想要生成的视频是什么样的 。就像大模型训练一样,一旦工具开放,就相当于全世界的人在为其打工,通过不断标记、录入,让其世界模型变得越来越聪明 。”
于是我们看到 , AI视频成为了理解物理世界的第一个阶段 , 主要突出其作为“视频生成模型”的属性;发展到第二个阶段,才能作为“世界模拟器”提供价值 。
抓住Sora“视频生成”属性的核心在于——找不同,即Sora和Runway、Pika的差异性体现在哪里?这个问题至关重要,因为某种程度上解释了Sora能够碾压的原因 。
首先的一点,OpenAI沿用了训练大语言模型的思路,用大规模的视觉数据来训练一个具备通用能力的生成模型 。
这与文生视频领域“专人专用”的逻辑完全不同 。去年,Runway也有过类似的计划,被其称之为“通用世界模型”,思路大致相似,但没有后续,这回Sora倒是先一步完成了Runway的梦想 。
据纽约大学助理教授谢赛宁推算 , Sora参数量约为30亿,虽然对比GPT模型显得微不足道,但是这个数量级已经远超了Runway、Pika等一些公司,可以称得上是降维打击 。
万兴科技AI创新中心总经理齐镗泉,评价Sora的成功再次验证了“大力出奇迹”的可能性 , “Sora依然遵循OpenAI的Scaling Law,靠大力出奇迹,大量数据,大模型和大量算力 。Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型 , 构建文生视频模型 , 达到模拟世界的能力 。”


推荐阅读