被高估的Pika,被低估的多模态AI

【被高估的Pika,被低估的多模态AI】原文来源:甲子光年
作者|苏霍伊
编辑|王博

被高估的Pika,被低估的多模态AI

文章插图
图片来源:由无界 AI生成
多模态 AI 正处于爆发前夜 。
从 GPT-4V 的“惊艳亮相”,到 AI 视频生成工具 Pika 1.0 的“火爆出圈”,再到谷歌 Gemini 的“全面领先”,多模态 AI 都是其中的关键词 。
尽管 Pika 1.0 的宣传视频被一些用户认为是“炒作”,亦或谷歌承认 Gemini 的演示视频“经过剪辑”,但不能否认,它们丰富了人们对多模态 AI 的想象力 。
“之前很多公司都在卷文本大模型 , GPT-4V 的出现代表多模态大模型可落地 , 毫无疑问明年大家都会卷多模态 AI,原因很简单 , 因为 OpenAI 说明这条路是能够走得通 。”微博新技术研发负责人、AI 首席科学家张俊林说 。
在行业主语为“落地”的当下 , 多模态 AI 正走向场景化、实用化、商业化 。例如,在医疗领域可以通过结合图像、录音和病历文本,提供更准确的诊断和治疗方案;在交通领域,结合图像和传感器数据,带来更智能、更安全的自动驾驶体验;在教育领域,将文本、声音、视频相结合 , 呈现更具互动性的教育内容 。
但是业界一直在提多模态的概念,远没有近期几个现象级产品的演示那么直观:多模态不仅可以为 AI 应用带来更多可能性,还是实现通用人工智能的重要路径 。
1.Pika:实力还是炒作?
最近的 AI 圈的饭局上,大家聊到多模态 AI ,往往都会提到一家硅谷的初创公司—— Pika Labs 。
公司初创团队只有 4 个人 , 创始人兼 CEO 郭文景有“女学霸”“斯坦福退学创业”“上市公司创始人女儿”等个人标签; Pika 三轮融资已筹款 5500 万美元 , 估值在 2-3 亿美元之间;投资者包括 Quora 创始人兼CEO Adam D’angelo 、 OpenAI 科学家 Andrej Karpathy、Hugging Face 联合创始人兼CEO Clem Delangue、YC 合伙人 Daniel Gross 等人 。
这些都加起来,可以说 Pika 的爆火是在发展过程中 , 讲了一个技术、商业、资本、用户都感兴趣的故事 , 而且赶上了一个好的时机 。
“今年 6 月份之后, AI 生成图片的投资变得比较保守 , 很多投资人会更关注 AI 生成视频 。”从事 AI 生成视频研究的浦林(化名)告诉「甲子光年」,自有 AIGC 概念开始,无论是 AI 生成图片还是 AI 生成视频都很热,但是基于技术的发展程度,业内预计今年年底,AI 生成视频会有一个不错的 demo 出现 。“这个 demo 足够吸引很多的流量 , 甚至出圈,有这样的信心,那投资的逻辑就能走下去了 。可以说,Pika 占到一个很好的时间点 。”
Pika 1.0 推出的当天,科技圈大佬们纷纷为其站台 。
自然语言处理领域著名学者 Christopher Manning 称赞 Pika 的两位创始人郭文景和孟晨琳推动了高质量视频的快速发展;OpenAI 科学家 Andrej Karpathy 在社交平台上转发了 Pika 1.0 的演示内容并表示:“每个人都能成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样 。”
Pika 1.0 火爆出圈,离不开一段官方宣传视频 。视频中,用户只要输入“马斯克穿着太空服,3D 动画”,就生成了下面这段视频 。
Pika 1.0 官方宣传视频中其它演示也可以用“惊艳”来形容,视频发布后 , 已经有媒体迫不及待地称“AI 生成视频的 ChatGPT 时刻即将达来” 。
但是,Pika 真的如宣传视频上所展现的那么“惊艳”吗?
今年 7 月,Pika Labs 就在 Discord 推出服务器 , 短短几个月时间内收获了 50 万用户 。不过,想使用最新的 Pika 1.0,在官网可能还需一段时间的排队 。但在 Discord 上,许多用户已经晒出了测试视频 。
目前,Pika 1.0 还只能生成 3 秒展示视频 。在社群中,用户 A 输入提示词: A dragon fly in sky(一条龙在天上飞) 。这个表达是比较清晰明确的,但输出的视频结果却和龙毫不相关 , 更像一个克苏鲁生物 。
而用户 B 输入了更为细致的提示词:female priest - dnd character - in battle pose - character select default animation - camera zoom in - motion 1(女性牧师 - 龙与地下城角色 - 战斗姿势 - 角色选择默认动画 - 摄像头放大 - 动作1) 。
这次 Pika 1.0 输出的视频结果大体相符要求 , 但细节依然有明显缺陷,角色的手部构图“惨不忍睹” 。不过,“AI 不会数数”是存在已久的问题,并非 Pika 独有的“瑕疵” 。


推荐阅读