人工智能|中国式浪漫之外的北京冬奥:这位北京大妞最让人想不到( 二 )


文章图片

 
 
噗!
还别说 , 冬冬虽然是个数字人 , 她讲得脱口秀还是蛮逗的 。
而且在脱口秀期间 , 除了用诙谐幽默的语言讲段子之外 , 冬冬还会穿插着讲解与冬奥项目有关的知识 。
真是科普、搞笑两不误 。
但直播间 , 只是冬冬工作场合之一 , 这不 , 她在冬奥会期间还参加了CCTV-5《体坛英豪》节目的录制 。
在其中的一期节目中 , 短道速滑运动员武大靖 , 就成了她的采访对象 。

人工智能|中国式浪漫之外的北京冬奥:这位北京大妞最让人想不到
文章图片

现场 , 冬冬还请求武大靖指导一下她最新学会的短道速滑动作 。
在瞬间变装后 , 便在武大靖面前开始展示:

人工智能|中国式浪漫之外的北京冬奥:这位北京大妞最让人想不到
文章图片

冬冬问武大靖:“你知道我的动作是跟谁学的吗?”
武大靖自信地回答道:“我呗 , 肯定是学我呗 。”
而后 , 冬冬和武大靖展开了轻松愉悦的快问快答 。
冬冬:这届冬奥会最难忘的时刻是?
武大靖:我们获得首金的时候 。
冬冬:头盔的图案为什么选择华夏战神孙大圣?
武大靖:因为它的寓意很好 , 孙大圣的感觉就是拼命吧 。
冬冬:保温杯里泡的是什么?
武大靖:没泡枸杞 , 泡的是正常的水 。
冬冬:金墩墩拿回家 , 会放在哪里?
武大靖:放保险箱里 , 其他人说已经联盟要弄我 。
……
一番交谈还挺自然 , 冬冬模仿真人采访人员有模有样 。
那么一个AI数字人 , 能够做到如此的实时和拟真 , 接下来的一个问题便是:
冬冬 , 是怎么炼成的?
随着数字人冬冬在网上的走红 , 其背后的技术能力也逐渐浮现了出来 。
据了解 , 冬冬之所以能够像人类一样自然 , 主要得益于阿里巴巴数字人技术团队多年来在此的技术积累 。
首先 , 是在外观的自然度方面 。要让虚拟人在说话过程中做到自然 , 就需得像人类一样 , 把嘴、表情、肢体动作等等做到统一、协调 。
冬冬背后的技术所采取的策略 , 则是AI实时驱动 。
例如在“嘴型驱动”上 , 冬冬可以做到播报的语音和嘴型对应;并且在说话过程中 , 会融合适合的面部表情 , 比如微笑、兴奋、生气、疑问等 。
除此之外 , 冬冬的身子 , 即肢体动作 , 也会配合内容而发生改变 , 例如挥手、鼓掌等等 。

人工智能|中国式浪漫之外的北京冬奥:这位北京大妞最让人想不到
文章图片

而且为了在视觉上达到更加逼真的效果 , 阿里采用了Unity HDRP高清管线来实时渲染拟真人级别的数字人 。
包括实时的模拟自然光照、动力学(比如服装、头发的摆动)等效果 。
但若仅仅是停留在外表 , 那要跟人类相比 , 还是差点意思的 。
要想在直播间里和用户长时间自主互动 , 流畅对话是一个必要条件 。
多模态双工互动能力(MMDI , multi-mode duplex interaction) , 便是其采取的策略 。
具体而言 , 是在深度融合了多模态理解和双工对话管理技术的基础上 , 构建了一套全智能驱动的数字人双向互动能力 。
这让数字人具备了像人一样边说边听的技能 , 即使被打断也可以继续顺畅沟通 。
而且声音、表情、动作在表达时能够自然地整合在一起 。
但光是“形象逼真”、“可以互动” , 还是不够的 。如何能够让用户觉得冬冬言之有物 , 内容扎实丰富 , 是非常重要的 。
这就需要冬冬具备“智能脚本生成”(AI Script Generation , AISG)的能力 。
为此 , 阿里数字人技术在深度融合预训练和知识图谱基础上 , 构建了一套全智能的可控脚本生成方案 。
核心就是将以往专家撰写脚本的方式 , 转变成了机器自动撰写 。


推荐阅读