被高估的Pika,被低估的多模态AI( 三 )


除此之外,现象级文生图工具 Midjourney 也正在着手开发视频功能;Meta 也推出了两项基于人工智能的视频编辑新功能 。
而在开源方面 , AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局 AI 视频生成赛道 。
3.多模态AI的想象
对于投资人来说,多模态 AI 也是今年下半年的关注焦点 。
长期关注 AI 领域投资的心资本合伙人吴炳见认为,大语言模型只是 AI 版图的一部分,基础模型的第一性原理是“predict next token(预测下一个词)”,这个原理有可能带来其它模型 。
“如果未来 Transformer 或者另外一套算法能够准确预测下一帧,那么视频模型就出来,就有机会解锁下一个抖音级别的内容平台;如果能准确预测下一串动作序列,那么具身智能模型就出来了,就解锁通用机器人了;如果能准确预测下一个蛋白质序列,那么蛋白质模型就出来了,新药研发又可以迈进一大步了;如果能准确预测下一个像素,那么 3D 模型就出来了,就解锁元宇宙的构建了 。”吴炳见说 。
在吴炳见看来,待版图完全解锁后 , 就会有多个基础模型,而很多方向的边际成本会趋近于零,不断解锁新的应用层的机会 。
国内的 AI 厂商也在加强对多模态 AI 的投入 。昆仑万维在海外进行了 AI 多模态场景探索,其中包括了AI游戏(Club Koala),之前已经在德国科隆游戏展上亮相,预计将于明年上半年进行测试 。“这里不仅包括了常见的对话,通过大模型赋能的 AI NPC , 也包括 3D 生成等 AIGC 技术,尤其是在 AI 3D 生成方面,我们做得比较领先 。”昆仑万维董事长兼 CEO 方汉介绍 。
「甲子光年」还关注到一些技术大佬入局 。例如,清华大学计算机系 Bosch AI 教授、清华大学人工智能研究院副院长朱军创立的生数科技,专注于多模态层面 , 致力于打造可控的多模态通用大模型;前字节跳动前视觉技术负责人、AI Lab 总监王长虎创立了爱诗科技,聚焦于生成式 AI 的视觉多模态算法平台 。
尽管多模态大模型使AI能够根据图像内容推理复杂问题,但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域 。因此 , 香港中文大学贾佳亚团队提出 LISA(Large Language Instructed Segmentation Assistant)多模态大模型 。LISA 通过引入一个 标记来扩展初始大型模型的词汇表,并采用 Embedding-as-Mask (嵌入作为掩码)的范式赋予解释多模态大型模型分割功能,最终展现出强大的零样本泛化能力 。

被高估的Pika,被低估的多模态AI

文章插图
LISA 技术方案概述 , 图片来源:受访者提供
在垂直应用场景上,云知声通过医疗知识增强的山海大模型北京友谊医院打造的门诊病历生成系统,可以在不改变医生问诊方式情况下,通过医生与患者的对话录音 , 抽取关键问诊信息并生成病历,将医生从病历撰写工作中解放出来,把更多时间留给患者 。
谷歌近期重磅推出的 Gemini 也显示了多模态模型在各应用场景中的潜在价值 。如何真正打通物理世界和数字世界之间的屏障,关键在于有效处理多模态 AI 能力 。用底层的感知能力衍生出操作,从而实现与物理世界最自然的交互方式 。
在多模态 AI 爆发之前,不要温和地走进这个良夜 。
*应受访对象要求,文中浦林、辰逸为化名




推荐阅读