通俗易懂地解释OpenAI Sora视频生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?( 二 )


通俗易懂地解释OpenAI Sora视频生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?

文章插图
此外 , 视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性 。OpenAI Sora经常(但并非总是)能够有效地对短距离和长距离依赖关系进行建模 。例如,即使人、动物和物体被遮挡或离开画面 , Sora模型也能保持它们的存在,在后续的视频中依然出现原有的人物或者动物 。同样,它还能在单个样本中生成同一人物的多个镜头,并在整个视频中保持其外观 。
同时,Sora有时可以模拟一些影响世界状态的简单动作 。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个人可以吃一个汉堡,并留下咬痕 。
通俗易懂地解释OpenAI Sora视频生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?

文章插图
通俗易懂地解释OpenAI Sora视频生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?

文章插图
OpenAI Sora可以模拟人工过程
除了真实的物理世界外,OpenAI Sora还可以模拟人类创造的一些世界或者过程 。Sora模型可以通过理解语言提示来模拟和渲染视频游戏世界(如Minecraft)的高级能力 。它不仅能够以高保真度同时渲染游戏环境和动态,还能控制游戏中的玩家角色,执行基本策略 。这种能力表明Sora不仅具备强大的语言理解和任务推断能力,还能处理复杂的视觉和控制任务,尤其在视频游戏仿真领域表现出色 。
通俗易懂地解释OpenAI Sora视频生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?

文章插图
Sora模型的能力表明,继续扩大视频模型的规模是朝向开发能够高度仿真物理和数字世界及其中的对象、动物和人的高能力模拟器的有希望的路径 。这种扩展不仅增强了模型处理复杂场景的能力,还提升了其对世界各种元素的理解和模拟能力,从而为创建更加智能和逼真的AI系统铺平了道路 。
OpenAI Sora的技术独特之处
尽管此次OpenAI一如既往地没有详细披露Sora模型的技术细节 。但是也有一定的篇幅介绍了相关的技术 。这里我们针对其中核心的几点来说明 。
OpenAI Sora是一种结合了Diffusion模型和Transformer模型的技术 。通过将视频压缩网络将原始视频压缩到一个低维的潜在空间,并将这些表示分解为时空补?。?嗨朴赥ransformer的tokens,这样的表示使得模型能够有效地训练在不同分辨率、持续时间和宽高比的视频和图像上 。
OpenAI Sora与Diffusion模型和Transformers模型的比较
共同点:Sora模型利用了Diffusion模型的生成能力和Transformers模型的自注意力机制 。它通过预测干净补丁的方式生成视觉内容,同时利用Transformers模型处理时空补丁的能力 。差异:与Diffusion模型:Sora不仅仅是一个简单的Diffusion模型 , 它通过引入Transformers模型的自注意力机制和视频压缩技术 , 增强了处理不同分辨率和格式视频的能力 。
与Transformers模型:Sora超越了传统Transformers模型的应用范围 , 通过将视觉数据转换为补丁并利用Diffusion过程生成视觉内容 , 它结合了两种模型的优势,实现了视频和图像的高效生成 。
同时,OpenAI也强调了,这个模型在大量的数据上训练后就能提高视频生成的效果 。下图展示了训练过程中模型水平的提升:
通俗易懂地解释OpenAI Sora视频生成的特点有哪些?它与此前的Runway Gen2、Pika有什么区别?以及缺点是什么?

文章插图
换个角度说,OpenAI Sora也是某种程度上大力出奇迹的一个成果 。
OpenAI Sora模型的缺点
除了上面描述的优点外,OpenAI Sora视频生成也有一些缺点 。在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面OpenAI Sora都存在 问题 。主要总结如下:
物理交互的不准确模拟:Sora模型在模拟基本物理交互,如玻璃破碎等方面 , 不够精确 。这可能是因为模型在训练数据中缺乏足够的这类物理事件的示例,或者模型无法充分学习和理解这些复杂物理过程的底层原理 。
对象状态变化的不正确:在模拟如吃食物这类涉及对象状态显著变化的交互时,Sora可能无法始终正确反映出变化 。这表明模型可能在理解和预测对象状态变化的动态过程方面存在局限 。
常见的模型失败模式
长时视频样本的不连贯性:在生成长时间的视频样本时,Sora可能会产生不连贯的情节或细节,这可能是由于模型难以在长时间跨度内保持上下文的一致性 。对象的突然出现:视频中可能会出现对象的无缘无故出现,这表明模型在空间和时间连续性的理解上还有待提高 。这些失败的案例包括人在跑步机上朝着反方向跑步、长视频中突然出现之前不曾出现的物体、篮球在篮筐跳动的时候出现火苗等 。这些都意味着在真实世界交互的模拟都有重大问题 。


推荐阅读