被高估的Pika，被低估的多模态AI( 三 ) _多模态

除此之外，现象级文生图工具 Midjourney 也正在着手开发视频功能；Meta 也推出了两项基于人工智能的视频编辑新功能。
而在开源方面， AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局 AI 视频生成赛道。
3.多模态AI的想象
对于投资人来说，多模态 AI 也是今年下半年的关注焦点。
长期关注 AI 领域投资的心资本合伙人吴炳见认为，大语言模型只是 AI 版图的一部分，基础模型的第一性原理是“predict next token（预测下一个词）”，这个原理有可能带来其它模型。
“如果未来 Transformer 或者另外一套算法能够准确预测下一帧，那么视频模型就出来，就有机会解锁下一个抖音级别的内容平台；如果能准确预测下一串动作序列，那么具身智能模型就出来了，就解锁通用机器人了；如果能准确预测下一个蛋白质序列，那么蛋白质模型就出来了，新药研发又可以迈进一大步了；如果能准确预测下一个像素，那么 3D 模型就出来了，就解锁元宇宙的构建了。”吴炳见说。
在吴炳见看来，待版图完全解锁后，就会有多个基础模型，而很多方向的边际成本会趋近于零，不断解锁新的应用层的机会。
国内的 AI 厂商也在加强对多模态 AI 的投入。昆仑万维在海外进行了 AI 多模态场景探索，其中包括了AI游戏（Club Koala），之前已经在德国科隆游戏展上亮相，预计将于明年上半年进行测试。“这里不仅包括了常见的对话，通过大模型赋能的 AI NPC ，也包括 3D 生成等 AIGC 技术，尤其是在 AI 3D 生成方面，我们做得比较领先。”昆仑万维董事长兼 CEO 方汉介绍。
「甲子光年」还关注到一些技术大佬入局。例如，清华大学计算机系 Bosch AI 教授、清华大学人工智能研究院副院长朱军创立的生数科技，专注于多模态层面，致力于打造可控的多模态通用大模型；前字节跳动前视觉技术负责人、AI Lab 总监王长虎创立了爱诗科技，聚焦于生成式 AI 的视觉多模态算法平台。
尽管多模态大模型使AI能够根据图像内容推理复杂问题，但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。因此，香港中文大学贾佳亚团队提出 LISA（Large Language Instructed Segmentation Assistant）多模态大模型。LISA 通过引入一个标记来扩展初始大型模型的词汇表，并采用 Embedding-as-Mask （嵌入作为掩码）的范式赋予解释多模态大型模型分割功能，最终展现出强大的零样本泛化能力。

文章插图
LISA 技术方案概述，图片来源：受访者提供
在垂直应用场景上，云知声通过医疗知识增强的山海大模型北京友谊医院打造的门诊病历生成系统，可以在不改变医生问诊方式情况下，通过医生与患者的对话录音，抽取关键问诊信息并生成病历，将医生从病历撰写工作中解放出来，把更多时间留给患者。
谷歌近期重磅推出的 Gemini 也显示了多模态模型在各应用场景中的潜在价值。如何真正打通物理世界和数字世界之间的屏障，关键在于有效处理多模态 AI 能力。用底层的感知能力衍生出操作，从而实现与物理世界最自然的交互方式。
在多模态 AI 爆发之前，不要温和地走进这个良夜。
*应受访对象要求，文中浦林、辰逸为化名

被高估的Pika，被低估的多模态AI( 三 )

推荐阅读

神话里的混沌是啥意思道教关于混沌的描述

产品|如何正确选购充电暖手宝？安全提醒来了

近期超级热门的5部综艺节目最近的热门综艺节目有哪些？

孟晚舟|孟晚舟案再开庭，揭开“惊天丑闻”

网传博白发现1名确诊病例的密接者？官方回应

三弄|20200912《新闻联播》解读，欧盟停止数据传输给美国！|

安装、使用恒温水龙头有哪些注意事项

女生怎样练出一个美背

祁门红茶特点

Selina|20年后再看S.H.E, 为何她们三人差距那么大？

【微信升级】微信拍一拍怎么玩？怎么修改后缀？怎么拍一拍好友？|【微信升级】微信拍一拍怎么玩？怎么修改后缀？怎么拍一拍好友？

李亚鹏|李亚鹏：我的石头值3亿，四合院价值8亿，法院：限高，负债4000万

中年|募集资金没按约定投资竟用于个人消费中金国瑞案逾18亿元未兑付

打金针减肥效果怎么样

男子误遭3岁女儿枪杀▲3岁娃不小心扣动扳机，美国一男子误遭枪杀

弈客围棋|金成龙翻案！法院判韩国棋院处罚违法需撤销，原创

香辣虾怎么做最好吃家常做法,香辣虾的做法最正宗的做法窍门-

主角|5本主角无敌嚣张的玄幻小说，全程高能不虐主，看得人很爽快

网络电视机顶盒哪个牌子好？选购必看的三大入门诀窍！

[他人婚]被曝插足他人婚姻《青你2》选手申冰退赛