肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富( 三 )



全身姿态的人体相似性评估结果 。
缺陷
这项研究在 reddit 上引起了广泛关注和讨论 。 除了对模型效果表示赞叹以外 , 也有网友发现了其中需要改进的地方 。
例如 , 有网友指出:「这个模型可以恰当地对节奏和语音强度做出反应 , 但它似乎并不怎么关注真实的语音信息内容 。 」
对此 , 作者之一 Gustav Eje Henter 表示同意:
你说的对!这个模型仅倾听语音(没有文本输入) , 但并不包含任何人类语言模型 。 我认为 , 使用这类模型生成具备语义意义的姿势(尤其还要与语音节奏保持一致)仍是一个未解难题 。
该网友还提出了数据问题:「要想使模型达到合理的效果 , 可能需要大规模数据集 。 」
对于 , Henter 也表示认同:
数据是目前的主要瓶颈 。 该模型基于同一个人的大约四小时的姿势和语音数据 。 我们很难找到足够的高质量语音和动作平行数据 。 一些研究者使用 TED 演讲 , 但是从此类视频中提取的姿势动作看起来不具备说服力 , 不够自然 。 (好的运动数据需要运动捕捉设置和仔细的数据处理 。 )因此 , 该研究目前使用的是较小型的高质量数据集 。
参考链接:
https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/
https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/
【肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富】


推荐阅读