8款AI视频生成产品实测，谁将成为中国Sora？ _Sora

文章插图
©自象限原创
【8款AI视频生成产品实测，谁将成为中国Sora？】作者丨罗辑、苏奕
来源丨自象限
2024年开年，科技圈没有什么比Sora的出现更让人兴奋。
如同ChatGPT在2023年初带来的LLM创业潮，Sora的发布也同样将视频生成模型推到了风口浪尖。
科技巨头猛推产品，创业公司则乘风而上。
3月13日，AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资；3月12日，生数科技完成数亿元A轮融资；3月1日，AI视频生成 SaaS服务商「布尔向量」完成近千万元融资...
Sora首次践行了DiT架构，将过去各自独立的扩散模型和大模型融合在了一起，也将视频生成模型的历史翻开了新的篇章。
毫无疑问，一场新的技术风暴正在到来。一夜之间，国内大大小小的视频生成大模型争抢“中国版Sora”的标签。
为了探究这个问题的答案，「自象限」通过国内已有的视频生成产品进行实际体验，并结合公开信息、第三方检测机构数据等多个维度，对当下主流的视频生成模型进行了全面评估。
我们将从产品设计、实测效果和行业分析三个角度，全面探究，究竟谁能成为“中国版Sora”？

文章插图
DIT的创新，谁能复刻？
Sora的风虽然才刚刚从大洋彼岸吹到了中国，但视频生成却不是什么新鲜的话题。
在此之前，这个赛道已经经历了Runway的Gen-2、Pika1.0和谷歌VideoPoet的几波革命浪潮，终于来到了生成效果更好、时间更长、逻辑性更强、更稳定性的“Sora”时刻。
「自象限」梳理绘制出了国内视频大模型公司及产品的基本情况。

文章插图
▲图：国内外视频生成大模型企业一览，访问量以2024年2月计
在国外，谷歌、微软这类“硅谷老钱”很早就投入到了多模态视频生成的研究中。去年，谷歌发布了多模态大模型Gemini和VideoPoet视频大模型，让人从直观的效果层面看到了多模态生成视频的可能性。
在国内，多模态技术路径方向上我们看到了更多的可能性，既有技术积累深厚的大厂百度，也有大模型独角兽公司智谱，还有像生数科技、智象未来一类以多模态大模型为目标的创业公司。
扩散模型路线是文生视频的主流路线，在保证效果生成上发挥着重要的作用，所以即使是惊为天人的Sora在底层架构上也只是改造，而非全盘颠覆。
无论国内外，在这条道路都最为拥挤，首先是一手打造和开源扩散模型的Stability AI公司，紧跟其后的是猛猛向前冲的Runway、Pika，然后才是OpenAI、Meta、英伟达这些巨头。
回到国内，腾讯、阿里、字节三个大厂在前期几乎包揽了视频生成领域的研究，时不时地抛出一个demo小小地惊艳一下。但真的谈到落地产品，还是创业公司明显更快一步，比如爱诗科技、Morph studio、右脑科技等公司已经开始面向用户开放。
被称之为“Sora路线”的DiT ，全称为Diffusion Transformer，本质是把训练大模型方法机制融入到了扩散模型之中，从Sora技术报告呈现的结果来看，大力出奇迹之下可能会产生世界物理模拟器的效果。
如今， Sora的底层架构被扒了个遍，训练的组件和技术也在开源的路上，但这也并不意味着人手一个Sora指日可待，技术、数据、算力、训练规模都是一道道关卡。
近期，Sora核心团队负责人在采访中透露：“Sora目前还处于反馈获取阶段，还不是一个产品，短期内不会向公众开放。”
从技术路线上看，国内的爱诗科技是少数从一开始就坚持了DiT路线的企业，其创始人王长虎在公开采访中谈到，Sora的出现验证了爱诗视频生成大模型的方向正确性。正因如此，爱诗科技定下了“3—6 个月赶超Sora”的目标，抓住机会，奋起直追。

文章插图
产品实测，用户“跑分”
在视频生成模型赛道，目前国内的创业公司大致可以分为两类。
一类是以爱诗科技（PixVerse）、生数科技（PixWeaver）、 Morph Studio和智象未来（Pixeling）为代表的自研基础大模型，聚焦通用场景的视频生成工具。
另一类则包括右脑科技（Vega AI）、李白AI实验室（神采promeai）、毛线球科技（6PenArt）、布尔向量（boolv.video）和MewXAI（艺映AI）。这一类数量更多，也更加产品化，专注于解决某一类场景下的问题，更像是一个AIGC的在线编辑平台。