Sora为什么是AGI的又一个里程碑时刻？( 二 ) _Sora

其次，在Sora身上第一次展现了扩散模型与大模型能力的完美融合。
AI视频就像一部电影大片，取决于剧本和特效两个重要元素。其中，剧本对应着AI视频生成过程中的“逻辑”，特效则对应着“效果” 。为了实现“逻辑”和“效果”，背后分化出了两条技术路径扩散模型和大模型。
去年年底，光锥智能就曾预判到，为了同时能够满足效果和逻辑，扩散和大模型两条路线终将走向融合。没想到，OpenAI如此迅速地就解决了这个难题。

文章插图
（图源：OpenAI官网）
OpenAI 在技术报告中画重点提到：“我们将各种类型的视觉数据转化为统一表示法的方法，这种表示法可用于生成模型的大规模训练。”
具体来看，OpenAI将视频画面的每一帧都编码转化为了一个个的视觉补?。╬atches），每个补丁都类似于GPT中的一个token ，成为了视频、图像中的最小衡量单位，并且可以随时随地被打破、被重组。找到了统一数据的方式，统一了度量衡，也就找到了打通扩散模型和大模型的桥梁。
在整个生成的过程中，扩散模型仍在负责生成效果的部分，增加大模型Transformer的注意力机制后，就多了对生成的预测、推理能力，这也就解释了Sora为什么能够从现有获取的静态图像中生成视频，还能扩展现有视频或填充缺失的画面帧。
发展至今，视频模型已经呈现出复合的趋势，模型走向融合的同时，技术也在走向复合。
把之前沉淀的技术积累运用到视觉模型上，也成为了OpenAI的优势。在Sora文生视频的训练过程中，OpenAI就引入了 DALL-E3和GPT的语言理解能力。据OpenAI表示，DALL-E3、GPT基础上进行训练，能够使Sora准确地按照用户提示生成高质量的视频。
一套组合拳下来，结果就是出现了模拟能力，也就构成了“世界模拟器”的基础。
“我们发现，视频模型在进行大规模训练时，会表现出许多有趣的新兴能力。这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现并没有对三维、物体等产生任何明确的归纳偏差——它们纯粹是规模现象”，OpenAI表示道。
“模拟”之所以能够如此炸裂，根本的原因在于，用大模型创造出不存在的事物人们已经习以为常，但是能够准确地理解物理世界运转逻辑，例如力是如何相互作用的，摩擦是如何产生的，篮球是如何打出抛物线的等等，这些都是以前任何模型都无法完成的事情，也是Sora超越视频生成层面的根本意义所在。
不过，从demo到实际成品，可能是惊喜也可能是惊吓。Meta首席科学家杨立昆就直接对Sora提出了质疑，他表示：“仅凭能够根据提示生成逼真的视频，并不能说明系统真正理解了物理世界。生成过程与基于世界模型的因果预测不同，生成式模型只需要从可能性空间中找到一个合理的样本即可，而无需理解和模拟真实世界的因果关系。”
齐镗泉也表示，虽然OpenAI验证了基于世界模型的文生视频大模型是可行的，但也存在物理交互的准确性难点，尽管Sora能够模拟一些基本的物理交互，但它在处理更复杂的物理现象时可能会遇到困难；长期依赖关系的处理存在挑战，即如何保持时间上的一致性和逻辑性；空间细节的精确性，处理空间细节方面如果不够精确，可能影响到视频内容的准确性和可信度。
颠覆视频，但远不止视频
Sora成为世界模拟器或许是很久以后的事情，但是就生成视频而言，已经对现在的世界产生了影响。
第一类就是解决之前技术上面无法突破的问题，推动一些行业迈向新的阶段。
最典型的就是影视制作行业，Sora这回最具革命性的能力就是最长生成视频长度达到了1分钟。作为参考，大热门Pika所能生成的长度在3秒、Runway的Gen-2生成长度在18秒，这意味着有了Sora以后，AI视频将能成为真正的生产力，实现降本增效。
陈坤告诉光锥智能，在Sora诞生前，其利用AI视频工具制作科幻电影的成本已经下降至了一半，Sora落地后，更加值得期待。
Sora发布后，令他印象最深刻的是一个海豚骑车的demo 。在那个视频中，上半身是海豚，下半身是人的两条腿，腿上还穿了鞋子，在一种极具诡异性的画风中，海豚完成了作为人骑自行车的动作。

Sora为什么是AGI的又一个里程碑时刻？( 二 )

推荐阅读

几乎零差评的10大烧脑电影，全程高能反转不断，你看懂几部？

电脑使用技巧电脑64G内存真的必要吗？运行速度能有大提升？过来人都这么说

蓝天情感|就不要勉强自己了！，看图猜成语：没有过人的智商

SSD|曝黑鲨5系列已备案：或为首款骁龙898+SSD存储旗舰手机！

泰国@泰国“狼人女孩”找到真命天子！将面部清理干净后，原来这么美

福建电视台综合频道：哈啰单车被弃荒地、随意破坏？执法人员：双方都得处罚

沙河股份|深圳板块午后继续走强建科院等5股涨停

连云港海事局|连云港海事局：9月28日至30日在黄海南部进行实弹射击

沙滩露营有哪些注意事项？

在西安铁一中国际班就学是一种怎么样的体验

喝荷叶茶能减肥吗？荷叶茶的副作用

川报观察|助农增收犍为举办首届“8.8吃货节”

物件|这个厂曾生产出被誉为“皇帝女儿”的物件，可还有揭西街坊记得它的辉煌

手机能放在冰箱里吗会坏吗手机能放在冰箱里吗

呆萌小跟班|老鹰官推晒球员投篮手势：投手都知道投篮后续动作重要性

电竞|LOL“祖安文化”被点名，严惩乐言和南风只是个开始，以后会更严

「GameRes游资网」游戏运营活动效果分析（一）：活动流程

使用 Face-api.js 在 Web 上进行人脸检测

她将泅渡一个女诗人的泪湖中：严防死守，重启中美航班？美国再出损招

活力百分百|出门穿这“蕾丝”打底衫，看着就年轻15岁，40岁老婆真会打扮