数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参( 四 )


3、驱动 : 智能合成 、 动作捕捉迁移2D、3D 数字人均已实现嘴型动作的智能合成 , 其他身体部位的动作目前还只支持录播 。 2D、3D 数字人嘴型动作智能合成的底层逻辑是类似的 , 都是建立输入文本到输出音频与输出视觉信息的关联映射 , 主要是对已采集到的文本到语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训练 , 得到一个输入任意文本都可以驱动嘴型的模型 , 再通过模型智能合成 。
然而 , 2D 视频和 3D 嘴型动画底层的数学表达不一样 , 2D 视频是像素表达;3D 嘴型动画是 3D 模型对应的 BlendShape 的向量表达 。 除了嘴型之外的动作 , 包含眨眼、微点头、挑眉等动画目前都是通过采用一种随机策略或某个脚本策略将预录好的视频/3D 动作进行循环播放来实现 。 例如 3D 肢体动作目前就是通过在某个位置触发这个预录好的肢体动作数据得到 。
触发策略是通过人手动配置得到的 , 未来希望通过智能分析文本 , 学习人类的表达 , 实现自动配置 。 截至目前 , 国内外科技企业在数字人动作智能合成方面都有一定进展 , 国际上如 Reallusion 公司研究的利用语音生成面部表情的 Craytalk 技术已在动画制作中被成功商用 , 国内搜狗、相芯科技等公司也有部分项目落地应用 。
通过将捕捉采集的动作迁移至数字人是目前3D数字人动作生成的主要方式 , 核心技术是动作捕捉 。 动作捕捉技术按照实现方式的不同 , 可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉等 。 现阶段 , 光学式和惯性式动作捕捉占据主导地位 , 基于计算机视觉的动作捕捉成为聚焦热点 。光学动作捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务 。
最常用的是基于 Marker(马克点)的光学动作捕捉 , 即在演员身上粘贴能够反射红外光的马克点 , 通过摄像头对反光马克点的追踪 , 来对演员的动作进行捕捉 。 这种方式对动作的捕捉精度高 , 但对环境要求也高 , 并且造价高昂 。 光学式解决方案比较出名的企业有英国的Vicon , 美国的 OptiTrack 和魔神(MotionAnalysis) , 国内的 Nokov、uSens、青瞳视觉等 。
惯性动作捕捉主要是基于惯性测量单元(Inertial Measurement Unit , IMU)来完成对人体动作的捕捉 , 即把集成了加速度计、陀螺仪和磁力计的IMU 绑在人体的特定骨骼节点上 , 通过算法对测量数值进行计算 , 从而完成动作捕捉 。 这种惯性动作捕捉方案价格相对低廉 , 但精度较低 , 会随着连续使用时间的增加产生累积误差 , 发生位置漂移 。
惯性式动捕方案的代表性企业有荷兰的 Xsens , 以及国内的诺亦腾(Noitom)、幻境、国承万通等 。基于计算机视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉 , 是近些年才兴起的技术 。 这种视觉动捕方式因其简单、易用、低价 , 已成为目前使用的频率较高的动作捕捉方案 , 代表性产品有 Leap Motion、微软Kinect 等 。 以上动捕方案的性能对比如下图所示 。
数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参文章插图
主流动作捕捉方案性能对比
4、 渲染:真实性和实时性均大幅提升PBR(Physically Based Rendering , 基于物理的渲染技术)渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实 , 突破了恐怖谷效应 。 恐怖谷效应由日本机器人专家森政弘提出 , 认为人们对机器人的亲和度随着其仿真程度增加而增高 , 但当达到一个较高的临界点时 , 亲和度会突然跌入谷底 , 产生排斥、恐惧和困惑等负面心理 。 数字人恐怖谷效应主要由数字人外表、表情动作上与真人的差异带来 , 其中外表真实感的关键就是皮肤材质的真实感 , 无论是塑料感还是蜡像感都会给人类带来不适 。 在 PBR 技术出现之前 , 限于相关软硬件的发展程度 , 所有的 3D 渲染引擎 , 更多的着重在于实现 3D 效果 , 在真实感体现方面差强人意 。


推荐阅读