肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
只输入语音便能生成人体姿势 。 瑞典皇家理工学院的研究者做到了!
本文插图
你能看出上图中的人物姿势是仅基于一段语音生成的吗?
基于语音生成上半身动作甚至全身姿势 , 并实现速度、对称度等高级的姿势控制 , 瑞典皇家理工学院的一项研究做到了 。
该研究提出的方法不仅能够基于语音合成对应的姿势 , 还可以为同样的语音生成不同的姿势:
本文插图
本文插图
上面这两组姿势竟然表达的是同一段话?
仅仅这样还不够 , 该方法还提供高级的风格控制 , 比如速度:
本文插图
左右方姿势的对称度:
本文插图
说话时姿势动作的半径范围 , 动作幅度的大小尽在掌控:
本文插图
甚至还能控制一侧手臂的高度位置:
本文插图
此外 , 该方法还可以生成全身的姿势动态 , 包括站姿的变化和脚步的移动:
本文插图
具体效果参见视频:
Demo 展示的效果征服了一批 reddit 网友 。 他们表示 , 如果能将这个技术用在游戏(如《无人深空》)或 VR 产业 , 那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作 , 这可以大大降低游戏的开发成本 , 也能让对话情境下的 VR 人物更加逼真 。
本文插图
那么 , 如此逼真的姿势动作是如何生成的呢?我们来看这项研究的具体细节 。
只用语音生成人物姿势
逼真姿势的自动合成有望改变动画、替身和交际智能体领域 。 在离线应用中 , 新工具可以将动画师的角色转变为导演 , 他只需为期望的动画效果提供高级输入即可 。 之后 , 学得的网络将这些指令转换为适当的身体姿势序列 。 在交互场景中 , 实时生成自然动画的系统是塑造可信和关联角色的关键所在 。
瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进 , 提出了一种新的生成模型 , 该模型可实现当前最优的语音驱动姿势生成 。
得益于该方法的概率属性 , 在给定相同输入语音信号的情况下 , 该模型可以生成多个不同且合理的姿势 , 实现动作的自然变化 。
本文插图
- 论文主页:https://diglib.eg.org/handle/10.1111/cgf13946
- 项目地址:https://github.com/simonalexanderson/StyleGestures
在实验部分 , 用户研究表明 , 该方法生成的上半身姿势动作自然 , 并且与输入语音非常匹配 。 该方法的评分高于先前所有的此类系统和基线方法 , 并且接近原始记录动作的评分 。
推荐阅读
- 技术编程|如何利用数据库进行世界史研究
- 环球Tech|室内飞无人机担心互撞?研究人员开发AI算法来防撞
- 春光研究院|兼具家用和车载,售价只要竞品零头!洒哇地咔K11吸尘器开箱评
- 科学|如果欧洲核子研究中心发现了一种新的粒子,这意味着什么呢?
- 戒毒|防治毒品复吸新靶点 研究团队“擦除”小鼠成瘾记忆
- 科学|2020年蝗虫频繁来袭,研究发现,它们在向人类传达重要信息
- 交通|深圳北斗应用技术研究院斩获2020红点奖
- 互联网|美林数据:参与组建国内首个省级泛在电力物联网工程研究中心
- |苹果宣布将弃用代码库中的非包容性语言
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域