七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器 , 就证明机器具备了人一样的智能 。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不断前进 。
AI对物理世界的探索无疑是当下的热门话题 。以ChatGPT和Sora为代表的AIGC展现出了令人震撼的表达能力,Sora更被认为是AI感知物理世界的初步探索 。不过 , 上海大学计算机科学与技术系教授武星在璞跃中国日前举办的以“AIGC赋能产业创新”为主题的Global Tech.NETwork活动上表示,“我更赞同图灵奖获得者杨立昆的观点:Sora提示词中生成的大部分看起来逼真的视频并不表明视频理解了物理世界 。”
【AI干掉声优?音频大模型追逐“图灵时刻”】喜马拉雅珠峰AI科技产品研发总监吕睿韬也持类似的观点,“Sora的表达虽然很好,但它本质是假装出来的,并没有真正理解世界的规则 。”
AI与物理世界交互一般可以通过视频与音频,相比之下,音频似乎能够更早达到图灵时刻 。
“目前音频产业界达成了共识:第一,未来一定是实时跨语种语音交互,这件事情会提前发生;第二是语音表达的人格化,现在所有的AI都在装作是人,但是音频模型到30B以上的时候,真的可能超越人 。”吕睿韬在活动上表示 , “喜马拉雅每天播放量的10%是AI大模型做的 , (大家已经)分不出是真人还是AI了,这是音频大模型能力的涌现 。”
“2023年所有的行业里的音频大模型其实都只复刻了音色,但这只占30%,并不是完全复刻人 。”吕睿韬介绍称,“我们现在在做的是15秒60个字能够实现从腔调、口吻、音色,包括情感信息都可以学习到、极速生成的大模型 。”
音频大模型不仅可以做语音,同时可以做音效和音乐,目前喜马拉雅正围绕主营业务做语音,包括对话形式,以及多角色、多情感的演绎能力等 。吕睿韬称,去年国内很多短剧出海都是喜马拉雅在做的配套,短剧是有声书的视觉版,去掉短剧里的视觉,其实就是有声书,“如何让AI把有声书演好,这是当前的命题 。”
推荐阅读
- 噩耗!《樱桃小丸子》声优因病去世,享年63岁,最后露面照公开
- 秀米如何上传本地音频,秀米应该咋得才可以上传视频
- 剪映app 如何提取视频音频
- 职场上,领导准备“干掉”你的4大征兆!
- 腾讯会议的音频降噪效果如何 腾讯会议怎么开启视频降噪
- 如何让网页自动朗读文字,怎么自动朗读网页中的文字如何转成音频
- 怎么显示电脑操作系统文件,如何在电脑中显示手机中的音频文件
- 如何把视频转成音频mp3格式 如何把视频转成音频
- An如何导出文件,An如何输出音频设置
- 如何用Java实现音频合成和声音识别?