Sora惊艳出世,AI能否给人类带来新的“视界”?

2月16日 , AI target=_blank class=infotextkey>OpenAI公司公布了其首个文生视频大模型Sora,同时展示了多个由Sora生成的最长时间达一分钟的视频,引起科技圈震动 。
钢铁侠马斯克对其发出“人类愿赌服输”的感叹,360董事长周鸿祎也作出“Sora意味着AGI实现将从10年缩短到1年”的预判 , Sora为什么能引起科技圈大佬的关注,其攻克了哪些AI技术的难点?
继ChatGPT引发多个行业的就业焦虑后 , OpenAI这次公布的Sora又将给哪些行业带来冲击?这些行业又该如何面对这些挑战?
在ChatGPT带来的关于AI的诸多争议还未完全平静下来的情况下,OpenAI又将AI的“触手”升维,这将带来哪些新的市场机遇又会制造哪些风险?
本期《钛度热评》特邀资深媒体人一起就话题:“Sora惊艳出世,AI能否给人类带来新的‘视界’?”进行了讨论,下面是部分观点集锦 。
关于Sora为什么能引起科技圈大佬的关注,其攻克了哪些AI技术的难点 。
BT财经联合创始人&CEO张津京表示,某种意义上,它根本不是一个模型,而是一系列实现用提示词生成视频的工具集合 。OpenAI研究了关文生视频目前能查到最新的三四十篇论文,他们最牛的地方就是从中找到了一条看起来可行,并通过一年多时间逐渐推动落实的技术路线 。所以你才发现这一篇报道的最后,OpenAI的研究团队列举了超过32篇被引用的论文 。而整个过程他们分成5个部分 , 分别采用了不同的工具和原理 。其中有创新思维的,是他们将视频作为了提示词可以理解的一个部分 。
为了做到这一点,他们首先将视频的内容降维 , 然后变成提示词可以容纳的内容提交给搭建的小模型去分析,输出的东西再通过提压的工具 , 把它变成多维的格式,最终形成视频 。
当然在这个过程中为了保证不失真,他们增加了很多的算法,最终通过跟行业内的交流,找到了一条可行的路径 。
Sora并不是一个现在可用的模型或者工具集 。因为在这篇文章的任何地方都没有向外界提供可以进行测试的链接,或者能重复进行研究人员制作视频的任何过程的页面 。
所以,这根本不是一个成熟的产品,甚至连毛坯房都算不上,只能算是技术前瞻 。
也正因为OpenAI知道目前实现不了相关的研究成果 , 除了展示没有其他任何的方式,所以他们并没有将这篇文章做成论文,在各大专业的平台或者媒体刊发 。
毕竟论文验证最核心的一点,就是结果可以重复 。
这就是说,凡是发布的论文带动的学科研究结果 , 通过其公布的实验过程,其他科学家可以复现,才能证明这个实验和结论的有效 。这是在科学界的常识 。
比如之前炒的沸沸扬扬的,韩国团队发现常温超导的事件,国际各大团队纷纷做了相关的试验,没有几个成功就对它的结果存疑 。
而也因为当下Sora还不是一个完整的模型产品,其生成的所有视频,为了保密不可能公开相关的内容和操作过程以及细节 。这也就让这件事在科技界的权威性要标上一个问号 。
毕竟没有可重复的过程,所有提供的视频究竟是不是由动态模型自主生成,还是一个人工辅助或者参与的结果,没法证实或者证伪 。
市值观察主编卢诗洋表示 , Sora简单来说就是一个文字生成视频的大模型 。这似乎没有什么大不了的 , 早在Open AI推出之前 , 相关大模型产品一个接一个,应有尽有 。比如,PIKA、Runway、SVD、Genmo、Moonvalley 。
但Sora足以降维吊打同行竞品 。
首先,它将视频时长从目前主流的几秒钟提升至1分钟,切入到了短视频创作的时长范围 。其次,单视频多角度镜头 , 且具备一致性 。再者,可生成具备多个角色、包含特定运动的复杂场景,能够一定程度上理解物理世界 。
它能取得如此震撼的效果 , 源于站在巨人的肩膀上,应用市面上较为成熟的两种技术(Transformer+扩散模型) 。且嵌入自家GPT模型范式,即用户输入的提示词先通过GPT进行详尽扩写 , 再将扩写后的内容交给Sora,逐帧生成更精准的视频 。这使其具备了独一无二的优势特点 。
Sora竞争对手因没有GPT底层扩写处理模型,卡在文生文,文生图上,与Sora有着无法逾越的鸿沟 。
Sora横空出世,标志着一个里程碑式的进步 。未来将深刻改变短视频、游戏、娱乐影视、动漫、广告营销、新闻社交等内容制作领域 。


推荐阅读