通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？ _Sora

生成长达一分钟的视频，更加自由尺寸的视频，支持向前以及向后扩展视频，多个视频的连接，涌现出真实物理世界模拟的能力
AI target=_blank class=infotextkey>OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前，业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注？Sora生成的视频与此前其它平台生成的视频到底有哪些区别？有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

文章插图
OpenAI Sora视频生成能力与其它平台和工具的对比表
在这里，我们先用一张表格来展示OpenAI Sora与其它视频生成工具（如Runway Gen2、Pika等）的区别。然后我们针对OpenAI Sora的特别之处进行详细解释。

文章插图
从这个表单可以看出，不论是基本的视频生成能力（时长、长宽比），还是更强的视频连续性、真实世界模拟等， OpenAI Sora都有无可比拟的优势。其中，视频清晰度，OpenAI Sora默认是1080P，而且其它平台大多数默认的清晰度也都是1080P以下，只是在经过upscale等操作之后可以达到更清晰的水平。
上述视频生成能力项中，视频连接、数字世界模拟、影响世界状态（世界交互）、运动相机模拟等都是此前视频平台或者工具中较少提及的，下面我们也将详细解释。另外值得一提的是，OpenAI Sora模型还可以直接生成图片，也就是说，它是一个以视频生成为核心的多能力模型。

文章插图
OpenAI的Sora视频生成的能力概览
首先，在详细描述Sora视频生成与Runway Gen2等平台的差异之前。我们先总结一下Sora视频生成的一些能力。
OpenAI Sora可以生成长达一分钟的视频
在OpenAI发布Sora之前，业界基于大模型生成视频的主要平台有Pika、Runway Gen2等，但是这两个平台视频生成默认都是几秒中，即便通过视频扩展等手段，最多也只能生成十几秒的视频。而OpenAI的Sora可以生成最多1分钟的视频。并且视频生成的结果非常连贯和清晰。
OpenAI Sora可以生成更加自由尺寸的视频
根据OpenAI的Sora技术报告，Sora模型可以采样宽屏1920x1080视频、竖屏1080x1920视频以及介于两者之间的所有尺寸视频。这意味着它可以生成更加自由的视频尺寸。而此前的视频平台，如Runway Gen2，文本生成视频的方式只能选择16：9，9：16，1：1，4：3，3：4，以及 21：9的长宽比。至于清晰度，则默认1408?×?768px 。

文章插图
上图是生成海归游泳的视频，不同尺寸的视频里面海归都是正中间位置，不会出现主要目标被剪裁的情况。
OpenAI Sora可以支持向前以及向后扩展视频
这是OpenAI Sora另一个与此前视频生成平台有巨大差异的地方。基于已有视频继续扩展在Runway Gen2、Pika等平台都有。但是现有平台的视频扩展通常是在当前视频的基础上继续向前生成几秒的视频。但是，OpenAI Sora可以在视频的基础上向前或者向后扩展。例如给定一个视频，OpenAI Sora可以为该视频创造不同的开头，最后都是以该视频结尾，过程非常连续。因此， Sora甚至可以在一个视频上同时向前和向后扩展，以产生一个无限连续的循环视频。
OpenAI Sora支持多个视频的连接
这是另一个Sora与众不同的地方。给定两个视频，OpenAI Sora可以将这两个视频揉在一起，生成一个新的毫无违和感的视频。例如，给一个无人机穿越古罗马建筑的视频，再给一个蝴蝶在海底珊瑚飞行的视频，Sora可以生成一个新的视频，让无人机变成蝴蝶，古罗马建筑变成珊瑚风格。

文章插图
上图是两个例子，左右两边是原来的2个视频，中间是基于这原有的2个视频连接后生成的新的视频。第一个就是刚才的蝴蝶与无人机的案例。第二个是圣诞节雪景和真实拍照的建筑视频的融合。
OpenAI Sora涌现出真实物理世界模拟的能力
OpenAI Sora可以生成更加真实的物理世界的视频。例如东京街头逛街的时尚女模、登山运动员等。但是，与其它平台的真实物理世界视频生成不同的是， OpenAI Sora可以以运动相机拍摄的方式来展示视频，包括运动相机的转换、旋转等。而这里最大的特点是运动相机拍摄的结果通常要与物理世界的三位空间一致，因此非常困难。但是Sora可以生成非常逼真的运动相机拍摄的视频结果。