作者 | 李冬梅、核子可乐
近日,斯坦福大学与 Meta/Facebook AI 研究(FAIR)实验室的工作人员共同开发出一套突破性的 AI 系统,能够仅根据文本描述在虚拟人和物体之间生成自然、协调的运动关系 。
这套新系统被称为 CHOIS(Controllable Human-Object Interaction Synthesis , 即可控人机交互合成),使用最新的条件扩散模型技术生成无缝且精确的交互,例如“将桌子举过头顶、行走,然后放下桌子 。”
简而言之,这是一套先进的人工智能系统,用于合成逼真的 3D 人机交互 。
这项工作被公布在 arXiv 论文预发表网站的一篇文章中,也让我们得以一睹虚拟人如人类般顺畅理解并响应语言命令的未来景观 。例如 , 把椅子拉近桌子来创造一个工作空间,调整落地灯以投射出完美的光芒,或者整齐地存放手提箱 。每一项任务都需要人、物体和周围环境之间的精确协调 。语言是表达和传达这些意图的有力工具,在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进的人工智能系统的基石 , 该系统可以在不同的 3D 环境中模拟连续的人类行为 。
论文地址:https://arxiv.org/pdf/2312.03913.pdf
研究人员们在文章中指出,“根据语言描述在 3D 场景中生成连续的人 - 物交互一直存在不少挑战 。”
他们必须确保生成的运动真实且协调同步,保持人手与物体之间的适当接触,且物体的运行应当与人类行为具有因果关系 。
如何实现
CHOIS 系统之所以效果拔群,依靠的就是其在 3D 环境中摸索出一套独特的人 - 物交互合成方法 。CHOIS 的核心为条件扩散模型,这是一种能够模拟详尽运动序列的生成模型 。
当给定人 / 物位置的初始状态以及所需操作的语言描述之后,CHOIS 就会据此生成一系列动作 , 最终完成任务要求的交互效果 。
例如,假设指令是将灯具移到沙发旁边,CHOIS 会理解指令内容并创建一段逼真的动画 , 显示人类形象拿起灯具并将其放置在沙发附近 。
利用 AMASS 等大规模、高质量的运动捕捉数据集 , 人们对生成人体运动建模的兴趣有所上升,包括动作条件合成和文本条件合成 。虽然之前的工作使用 VAE 公式从文本生成不同的人体运动 , 但 CHOIS 专注于人与物体的交互 。与通常以手部运动合成为中心的现有方法不同,CHOIS 在物体抓取之前考虑全身运动,并根据人体运动预测物体运动 , 为交互式 3D 场景模拟提供全面的解决方案 。
![计算机图形学将迎来新突破?Meta 携手斯坦福大学推出 3D 交互模型,VR 时代似乎不远了](http://img.jiangsulong.com/231214/1H149EL-0.jpg)
文章插图
给定初始对象和人类状态、语言描述和 3D 场景中的稀疏对象路径点,CHOIS 生成的物体运动与人体运动同步 。
CHOIS 的独特之处,就在于它使用稀疏对象路径点和语言描述来指导动画生成 。各个路径点充当对象移动轨迹中的关键标记点,确保运动不仅符合物理规律,而且与语言输入中描述的高级目标保持一致 。
CHOIS 的另一大优势,在于能够将语言理解能力与物理模拟功能加以结合 。传统模型往往难以将语言同空间和身体动作联系起来,特别对于较大的交互范围 , 必须考虑诸多因素才能始终保持交互的真实性 。
CHOIS 首先解释语言描述所承载的意图和风格,而后将其转化为一系列既符合人体构造、又不违背物体特性的肢体动作,从而解决了大范围交互过程中的这一现实难题 。
该系统尤其具有开创性的一点,就是它能准确表现接触点(例如手与物体之间的接触位置),且物体的运行与人类化身施加的力保持一致 。此外,该模型在训练和生成阶段还引入了专门的损失函数和指导性术语,旨在强制遵循这些物理约束,这也是让 AI 成功实现以人类方式理解物理世界、并与物理世界正确交互的重要一步 。
对计算机图形学、
AI 与机器人技术的影响
CHOIS 系统对计算机图形学产生了深远影响,特别是在动画和虚拟现实领域 。通过让 AI 获得解释自然语言指令并据此生成逼真人机交互过程的能力,CHOIS 能够大大减少制作复杂场景动画所需要的时间和精力 。
动画师们可以使用这项技术来创建出以往极为费时费力的关键帧动画序列,显著提升设计效率与成果产出 。此外,在虚拟现实环境当中 , CHOIS 还能带来更加身临其境且高度交互的体验,由用户通过自然语言指挥虚拟角色 , 并观察其以逼真精度执行任务的全过程 。这种更高水平的交互能够将 VR 体验从僵化、脚本化的事件转化为更加顺畅自然的动态环境用户输入响应效果 。
推荐阅读
- 如何在学信网上申请学历认证,如何从学信网下载学历认证证书呢
- 计算机终端是什么,计算机的终端是什么?
- 小花齐如意:7岁出道,12岁爆红,当红时出国留学,如今无戏可拍
- 金属铜是什么颜色,在化学中铜是什么颜色?
- 如何缓解学习压力,什么办法可以缓解学习压力?
- ai星星怎么绕中心旋转且复制,Ai该咋的才可以将图形进行复制
- 目不识丁、不学无术的跳梁小丑,到底是什么人捧红了这些网红?
- 用活人脑细胞造AI系统!语音识别已成功,可无监督学习
- win10系统怎么给c盘增加空间
- 视觉盛宴:TikTok独特的短视频美学探究