数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参( 三 )


该人物模型是预先通过AI技术训练得到的 , 可通过文本驱动生成语音和对应动画 , 业内将此模型称为TTSA(Text To Speech & Animation)人物模型 。真人驱动型数字人则是通过真人来驱动数字人 , 主要原理是真人根据视频监控系统传来的用户视频 , 与用户实时语音 , 同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上 , 从而与用户进行交互 。
数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参文章插图
智能驱动型虚拟数字人运作流程
数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参文章插图
真人驱动型虚拟数字人运作流程
二、虚拟数字人关键技术趋势1、虚拟数字人技术架构当前 , 虚拟数字人的制作涉及众多技术领域 , 且制作方式尚未完全定型 , 通过对现有虚拟数字人制作中涉及的常用技术进行调研 , 本白皮书在虚拟数字人通用系统框架的基础上提炼出五横两纵的技术架构 , 如下图所示 。
“五横”是指用于数字人制作、交互的五大技术模块 , 即人物生成、人物表达、合成显示、识别感知、分析决策等模块 。其中 , 人物表达包括语音生成和动画生成 。 动画生成则包含驱动(动作生成)和渲染两大部分 。 “两纵”是指 2D、3D 数字人 , 3D 数字人需要额外使用三维建模技术生成数字形象 , 信息维度增加 , 所需的计算量更大 。
数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参文章插图
虚拟数字人技术架构
这份白皮书重点关注虚拟数字人制作过程涉及的建模、驱动、渲染三大关键技术 。
2、建模 : 静态扫描建模仍为主流相机阵列扫描重建替代结构光扫描重建成为人物建模主流方式 。 早期的静态建模技术以结构光扫描重建为主 。 结构光扫描重建可以实现 0.1 毫米级的扫描重建精度 , 但其扫描时间长 , 一般在 1 秒以上 , 甚至达到分钟级 , 对于人体这类运动目标在友好度和适应性方面都差强人意 , 因此被更多的应用于工业生产、检测领域 。
【数字人正走进现实!AI大脑+高颜值,白皮书看懂四大关键技术五大应用 | 智东西内参】近年来 , 拍照式相机阵列扫描重建得到飞速发展 , 目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级) , 满足数字人扫描重建需求 , 成为当前人物建模主流方式 。 国际上 IR、Ten24 等公司已经将静态重建技术完全商业化 , 服务于好莱坞大型影视数字人制作 , 国内凌云光等公司制作的拍照式人体扫描系统也已经在电影、游戏、虚拟主播项目中成功应用 。
相比静态重建技术 , 动态光场重建不仅可以重建人物的几何模型 , 还可一次性获取动态的人物模型数据 , 并高品质重现不同视角下观看人体的光影效果 , 成为数字人建模重点发展方向 。 动态光场重建是目前世界上最新的深度扫描技术 , 此技术可忽略材质 , 直接采集三维世界的光线 , 然后实时渲染出真实的动态表演者模型 , 它主要包含人体动态三维重建和光场成像两部分 。
人体动态三维重建一直是计算机视觉、计算机图形学等领域研究的重点 , 主要采用摄像机阵列采集动态数据 , 可重建高低频几何、纹理、材质、三维运动信息 。 光场成像是计算摄像学领域一项新兴技术 , 它不同于现有仅展示物体表面光照情况的 2D 光线地图 , 光场可以存储空间中所有光线的方向和角度 , 从而产出场景中所有表面的反射和阴影 , 这为人体三维重建提供了更加丰富的图像信息 。
近年来 Mirosoft、Google、Intel、Facebook 等公司都在积极展开相关研究 , 其中 Microsoft 的 108 摄像机 MRstudio已经在全球各大洲均有建设;Google 的 Relightable 系统将结构光、动态建模、重光照技术集成到一起 , 在一套系统中包含模型重建、动作重建、光照重建的全部功能;国内清华大学、商汤科技、华为等也展开了相关研究 , 并取得国际水平的同步进展 。


推荐阅读