肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富


只输入语音便能生成人体姿势 。 瑞典皇家理工学院的研究者做到了!
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

你能看出上图中的人物姿势是仅基于一段语音生成的吗?
基于语音生成上半身动作甚至全身姿势 , 并实现速度、对称度等高级的姿势控制 , 瑞典皇家理工学院的一项研究做到了 。
该研究提出的方法不仅能够基于语音合成对应的姿势 , 还可以为同样的语音生成不同的姿势:
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

上面这两组姿势竟然表达的是同一段话?
仅仅这样还不够 , 该方法还提供高级的风格控制 , 比如速度:
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

左右方姿势的对称度:
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

说话时姿势动作的半径范围 , 动作幅度的大小尽在掌控:
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

甚至还能控制一侧手臂的高度位置:
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

此外 , 该方法还可以生成全身的姿势动态 , 包括站姿的变化和脚步的移动:

肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

具体效果参见视频:
Demo 展示的效果征服了一批 reddit 网友 。 他们表示 , 如果能将这个技术用在游戏(如《无人深空》)或 VR 产业 , 那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作 , 这可以大大降低游戏的开发成本 , 也能让对话情境下的 VR 人物更加逼真 。
肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

那么 , 如此逼真的姿势动作是如何生成的呢?我们来看这项研究的具体细节 。
只用语音生成人物姿势
逼真姿势的自动合成有望改变动画、替身和交际智能体领域 。 在离线应用中 , 新工具可以将动画师的角色转变为导演 , 他只需为期望的动画效果提供高级输入即可 。 之后 , 学得的网络将这些指令转换为适当的身体姿势序列 。 在交互场景中 , 实时生成自然动画的系统是塑造可信和关联角色的关键所在 。
瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进 , 提出了一种新的生成模型 , 该模型可实现当前最优的语音驱动姿势生成 。
得益于该方法的概率属性 , 在给定相同输入语音信号的情况下 , 该模型可以生成多个不同且合理的姿势 , 实现动作的自然变化 。

肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富
本文插图

  • 论文主页:https://diglib.eg.org/handle/10.1111/cgf13946
  • 项目地址:https://github.com/simonalexanderson/StyleGestures
研究者还展示了该模型对输出风格施加指引性控制的能力 , 如姿势高度、速度、对称度和空间活动范围 。 这类控制可用来传达期望角色的个性或情绪 。 研究者在未对数据做任何手动标注的情况下 , 实现了以上功能 。
在实验部分 , 用户研究表明 , 该方法生成的上半身姿势动作自然 , 并且与输入语音非常匹配 。 该方法的评分高于先前所有的此类系统和基线方法 , 并且接近原始记录动作的评分 。


推荐阅读