肢体语言|研究动态｜语音驱动姿势生成模型来了，肢体语言比总统候选人还丰富 |语音|姿势|

只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了！

本文插图

你能看出上图中的人物姿势是仅基于一段语音生成的吗？
基于语音生成上半身动作甚至全身姿势，并实现速度、对称度等高级的姿势控制，瑞典皇家理工学院的一项研究做到了。
该研究提出的方法不仅能够基于语音合成对应的姿势，还可以为同样的语音生成不同的姿势：

本文插图

本文插图

上面这两组姿势竟然表达的是同一段话？
仅仅这样还不够，该方法还提供高级的风格控制，比如速度：

本文插图

左右方姿势的对称度：

本文插图

说话时姿势动作的半径范围，动作幅度的大小尽在掌控：

本文插图

甚至还能控制一侧手臂的高度位置：

本文插图

此外，该方法还可以生成全身的姿势动态，包括站姿的变化和脚步的移动：

本文插图

具体效果参见视频：
Demo 展示的效果征服了一批 reddit 网友。他们表示，如果能将这个技术用在游戏（如《无人深空》）或 VR 产业，那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作，这可以大大降低游戏的开发成本，也能让对话情境下的 VR 人物更加逼真。

本文插图

那么，如此逼真的姿势动作是如何生成的呢？我们来看这项研究的具体细节。
只用语音生成人物姿势
逼真姿势的自动合成有望改变动画、替身和交际智能体领域。在离线应用中，新工具可以将动画师的角色转变为导演，他只需为期望的动画效果提供高级输入即可。之后，学得的网络将这些指令转换为适当的身体姿势序列。在交互场景中，实时生成自然动画的系统是塑造可信和关联角色的关键所在。
瑞典皇家理工学院的研究者通过对 MoGlow 这一基于深度学习的动作合成方法进行改进，提出了一种新的生成模型，该模型可实现当前最优的语音驱动姿势生成。
得益于该方法的概率属性，在给定相同输入语音信号的情况下，该模型可以生成多个不同且合理的姿势，实现动作的自然变化。

本文插图

论文主页：https://diglib.eg.org/handle/10.1111/cgf13946
项目地址：https://github.com/simonalexanderson/StyleGestures

研究者还展示了该模型对输出风格施加指引性控制的能力，如姿势高度、速度、对称度和空间活动范围。这类控制可用来传达期望角色的个性或情绪。研究者在未对数据做任何手动标注的情况下，实现了以上功能。
在实验部分，用户研究表明，该方法生成的上半身姿势动作自然，并且与输入语音非常匹配。该方法的评分高于先前所有的此类系统和基线方法，并且接近原始记录动作的评分。