AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业


AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
【新智元导读】Sora突破之后的突破又来了!语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音 。网友惊呼离AI完全生成电影又近了一步 。
虽然一些人不想承认,但AI视频模型Sora的开年王炸,确实给影视行业带来了颠覆性的影响!
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
OpenAI Sora各种逼真视频的生成足以让人惊掉下巴,有网友却表示,现在的Sora视频更像是‘无声电影’ 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
如果再给它们配上音效,现实可就真的就不存在了......
就在今天 , AI语音克隆初创公司ElevenLabs给经典的Sora演示视频 , 完成了绝美的配音 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
听过之后,让人简直颅内高潮 。
从建筑物到鲨鱼无缝切换视频中,可以听到小鸟叽喳 , 狗在狂吠,不同动物叫声糅杂在一起 , 非常空灵 。
汽车卯足劲向前行驶的声音,偶尔还能听到石子与轮胎的摩擦音 。
还有这欢乐喜庆的中国舞龙表演,敲锣打鼓人声鼎沸,好不热闹 。
地铁在轨道中咔哒咔哒行驶,还伴有空气被压缩发出隆~隆~的声音,让人有种耳塞的赶脚 。
机器人(10.570, 0.03, 0.28%)的专属配音,直接将赛博风拉满,听过后就知道是那种‘熟悉的味道’ 。
东京街头上 , 靓丽的女人提着手提包在路边行走,高跟鞋哒哒哒与步伐完全吻合 。还有那汽车鸣笛,路人说话的声音体现的淋漓尽致 。
惊涛骇浪撞击着岩石,海鸥在高空中飞翔,叫声高亢嘹亮 。
老奶奶开心地吹灭蜡烛,笑容洋溢在每个人的脸上,片刻美好,只希望时间能够按下暂停键 。
三只可爱的金毛在雪地中嬉戏打闹,兴奋地汪汪大叫 。
更令人震撼的是 , 下面这个视频直接配出了‘纪录片’的高级感 。
在片尾,ElevenLabs表示,以上所有的配音全部由AI生成,没有一点编辑痕迹 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
网友惊呼,‘这简直离完全由AI生成电影又近了一步’!
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
堪称突破后的突破!
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
需要补充的是,ElevenLabs的配音不是看视频直接生成的,还是需要prompt之后才能完成 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
不过 , 这种梦幻联动确实让人眼前一亮,或许OpenAI的下一步就是进一步扩展多模态能力,将视频、音频同时呈现 。
到时候,被革命的不仅仅是影视行业,甚至是配音、游戏领域,也要发生翻天覆地的变化!
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
向量空间中建模,让LLM理解隐式物理规则
那么,视频到音频的精准映射,该如何突破呢?
对此 , 英伟达高级科学家Jim Fan做了一个比较全面的分析:
为了精确配合视频内容 , 配音不仅需要文本信息 , 视频像素也至关重要 。
若想精确地实现‘视频-音频’的无缝匹配 , 还需要LLM在其潜在空间内理解一些‘隐式的物理原理’ 。
那么,一个端到端的Transformer需要掌握以下能力,才能正确模拟声波:
- 确定每个物体的种类、材质和空间位置 。
- 识别物体间的复杂互动,比如棍子是敲在木头、金属还是鼓面?敲击的速度如何?
- 辨识场景环境,是餐厅、空间站、黄石国家公园还是日本神社?
- 从模型的内存中提取物体及其环境的典型声音模式 。
- 应用‘软性’的、已学习的物理规则,组合并调整声音模式的参数,或者即时创造全新的声音,类似于游戏引擎中的‘程序化音频’ 。
- 对于复杂场景,模型需要根据物体的空间位置,将多条声音轨道叠加起来 。
所有这些能力都不是通过显式模块实现的!它们是通过大量时间对齐的视频和音频配对,通过梯度下降法学习得来的 。
模型的注意力层将利用其权重来实现这些功能,以达到扩散的目标 。


推荐阅读