AI数字人,先卷死二流带货主播( 二 )


AI数字人,先卷死二流带货主播

文章插图
首先是在不同的应用场景中,数字人表现有别 。
体验型产品无法通过数字人来展示,如服装类和珠宝类直播需要主播真人亲自穿戴,版型是否合身,材质是否亲肤,都需要通过实际展示,这也是直播的题中之义 。而母婴类和科技类的商品则需要更专业的呈现方式来提高可信度,建立和消费者的信任关系,数字人尚且还不能做到 。
其次是“似真非真”的尴尬 。
尽管在直播过程中,数字人可以点对点欢迎、感谢活跃用户、感谢刷礼物用户,甚至普遍性地能根据预设关键词自动回复,在短时间内难辨真假,但与真人相比,它们的交互性仍显不足 。
人们甚至会感觉这种“像真人却不真实”的效果,产生所谓的「恐怖谷效应」 。
「恐怖谷效应」是指在制作仿真人类外貌和行为的机器人或数字人时,人类会在其逼真程度达到一定阶段时感到反感或恐惧,而不是产生亲近感 。这个概念最早由日本机器人学家与作家森俊男于1970年代提出,用以描述当机器人越来越像人类时,人类的情感反应出现突然的下降,然后随着机器人更加逼真而再次上升 。
当虚拟数字人的外貌和行为越来越接近真人,但仍然有一些微小差异,这种差异会让人感到反感或不自在,因为它们接近真实但又不完全相同 。有时直播间的观众看了半个小时,突然发现原来主播并不是真人,会有人产生不适的感觉 。
迭代快,技术复杂,资源消耗大,发展不平衡,信息不透明,都直接或间接地导致这个行业鱼龙混杂 。有的数字人真假莫辨,有的只是“可动照片”,动动口型,表情非常不自然 。
数字人的制作涉及到多个技术领域,包括计算机图形学、人工智能、机器学习等 。不同技术的复杂度和成熟度不同,可能导致一些团队在某些方面取得突出成果,而在其他方面表现较差 。
此外,数字人的质量和逼真程度通常依赖于大量的训练数据和计算资源 。一些大型科技公司可能有更多的资源用于数据采集、模型训练和优化,从而能够创造更高水平的数字人 。相比之下,小型公司或团队可能受限于资源,也会导致数字人的质量较低 。
悬在我们头顶的达摩克利斯之剑
即使在鱼龙混杂的市场中选择了适合而满意的服务,在数字人的发展道路上,依然有一个绕不开的问题,即虚拟数字人的版权归属 。
数字人的生成通常依赖于真人提供的图像、声音和动作数据 。一旦数字人生成后,可能会引发有关版权和知识产权的争议 。谁拥有生成数字人所需的原始数据的权利?谁有权决定数字人的使用和分发?这些问题可能引发法律纠纷和知识产权争议 。
更早以前的虚拟人,以超现实或2D的形象存在,如在抖音上爆火的虚拟美妆达人柳夜熙,或者是依赖中之人配音的Vtuber绊爱,他们和现实世界的人的联系其实并没有那么紧密 。
数字人是基于真人视频、动作捕捉、语音识别等技术生成的,必然建立在真人模型之上 。即使存在由多个人面部特征组合的合成人,并不直接与任何另一个现实中存在的人相同,也依然需要这个基础 。然而,一旦数字人生成后,它们与原始人的联系逐渐淡化,可以脱离原始人的行动,数字人能根据输入的文案自动生成视频 。
商家购买的实际上是一次克隆自己的机会,在提供自己数分钟的口述视频后,基于视频中的动作、发音、表情,捕捉特征并生成一个高度近似本人的数字分身 。
方便起见,一些小商家会选择自己的脸作为数字人的形象,即使是员工,也可能是持有公司股权的员工 。如果实在其貌不扬,也能够选择将美颜功能拉满,依然还算看得过去 。即使为形象业务俱佳的主播制作了数字人分身,离职后要么不允许商家继续使用,要么还是长期支付使用费用 。
而前面提到的合成人形象虽然不存在版权问题,但在一些平台,“公模”可以用于制作短视频,但用于直播会被封号 。所谓“公模”,就是数字人企业制作的合成人形象,一般会同时送给多个客户共同使用 。
由于数字人可以根据预设的文案自动生成内容,它们有可能被用来传播虚假信息、造谣传谣或进行欺骗 。数字人的逼真外表和语音可能让人难以分辨真伪 。虽然商家都或多或少以营利为目的使用数字人,在平台的监管下不必自掘坟墓,但是一个顶着真人外表却无法直接追溯到具体的人的发言始终存在这样的风险 。


推荐阅读