被高估的Pika,被低估的多模态AI( 二 )


但也不乏效果惊艳的案例,比如用户 C 提供了图片并输入提示词:stranded medieval ship, violent sea, rain, clifs, slow motion, -motion 2 -gs22 -camera pan right Image: 1 Attachment(搁浅的中世纪船只、汹涌的海浪、雨水、悬崖、慢动作、动作2 、gs22 -摄像机向右平移、图像:附件1),生成的视频效果较为精美 。
AI 教育者 Chase Lean 在试用了 Pika 1.0 后难掩激动之情,他在社交媒体上直言这是他“使用过的最好的 AI 视频生成器” 。
浦林一直在关注 Pika 及相关产品 , 从 demo 和实际使用感受来说,Pika 1.0 已经属于“行业领先水平” 。
对于 AI 生成视频工具,最为简单的评判标准就是“生成的内容是否真实” 。在技术上 , Pika 在单帧画面拟真程度、美学质量以及视频的动作感上表现出色,在文生视频、图生视频的能力和运镜上也有不错的能力展示 。除算法外,社区活跃度也被认为是初创公司核心竞争力的一部分 , 包括维护 Discord 社区等 。目前,Pika 的社区活跃度位列业内前茅 。
在图像和视频生成方面,业内主流技术路线为 Diffusion Model(扩散模型) 。不过 Pika 联合创始人孟晨琳在接受采访时透露:“Pika 也不能完全算 Diffusion Model,我们开发了很多新东西,是一种新的模型 。”
不过在浦林看来,Pika 与其它 AI 生成视频工具(如 Runway )“在技术上没有本质差别” , 一些自媒体对 Pika 和 Runway 的对比分析“纯粹是经验归纳” 。
这也就会带来一个问题,长期关注 AI 领域的投资人辰逸(化名)向「甲子光年」表达了他的担忧:“Diffusion Model 不是智能的 。它主要根据过去图像的经验拟合出符合人类审美的图像,并不具备理解语言和智能思考的能力 。而当我们在使用 ChatGPT 时,会有在和真人对话的感觉,虽然这个「人」的智商可能忽高忽低 。”
辰逸认为 , 尽管 Pika 爆火离不开产品实力,但“炒作”成分更多些 。
“就像炒土豆丝,每个人使用的厨具、调味料等可能大不相同 , 但原材料归根结底都是土豆 。”辰逸比喻道,“理解语言的根本问题并没有解决,图像学还缺少一个飞跃的时刻 。”
而在回答“AI 视频生成什么时候会迎来 GPT 时刻”的问题时 , Pika团队还是比较清醒的,孟晨琳认为,目前视频生成处于类似 GPT-2 的时期 , “很可能在未来一年内有一个显著的提升” 。
Pika 的能力在某种程度上被高估了,但 Pika 带来的破圈效果是从业者乐于见到的 。浦林五年前就进入了 AI 生成视频领域,最近这半年是他觉得这个领域“最火”的一段时间,尽管他也觉得 Pika “在宣传上比较用力”,但是从专业角度分析 , 他相信 4 个人的团队做出 Pika 是“没问题的” 。
2.争夺AI视频生成高地
从技术视角来看,有业内学者认为,相对于文本、代码和图片生成,文生视频(Text-to-Video)是 AIGC 的“高地”,因为这个领域存在着算力需求大、高质量数据集短缺、可控性较差等挑战 。
浦林认为,AI 视频生成领域还有一个难题,即生产和研究之间存在的差距 。
研究者往往难在第一时间将研究成果应用于实际,因为不同的视频制作者,比如电影、动画、短剧的制作者 , 有着不同的制作流程,而研究中可能只涉及一种特定的生产方式,比如文本到视频 。
浦林近期也在产业中调研,通过和电影制片方的交流不断优化自己的研究方向 。“解决难题的关键在于开发的工具能否真正满足视频制作者的需求,并与其实际工作流程相契合 。”浦林告诉「甲子光年」 , “当你的研究越靠近生产的时候,它会产生更大的经济价值 。”
商汤科技数字文娱事业部副总裁李星冶表示,多模态 AI 中门槛比较高的就是文生视频,“现在一些广告视频的制作,只要录入文本就能生成视频,当然目前效率还没有那么高,视频像素可以达到 4K 或者 8K,但是动画效果还比较简单 。”
AI 视频生成领域,赛道也愈发拥挤起来 。尽管 Pika 备受瞩目,但接下来它仍需面对不断增多的竞争 。
Runway 推出了动态笔刷新功能 Motion Brush,用户只需在图片上轻轻一划 , 即可将其转化为动态视频 。另外,Runway 还与电影制作公司展开了紧密合作 。
Stability AI公司发布了其 Stable Video Diffusion 视频模型,用户可根据需要调整各种参数,如迭代步数、重绘幅度等,以协助创作者精确掌控画面生成过程 , 包括风格、姿势和线条等特征 。


推荐阅读