音视频算法在淘宝中的应用( 五 )


 
但HDR是一个端到端的系统,需要考虑到各种设备的兼容,所以我们做了一些适配来提升用户体验,比如普通相机拍出的内容就用普通通道传输解码,而一些高端设备支持HDR10,可以把内容做10Bit压缩,传输,在对端根据播放设备能力,做HDR To SDR、10Bit To 8Bit的转换来保证质量,对于好的手机就可以得到最好的HDR体验,一般手机也能得到基础的HDR体验 。图中可以看到HDR技术使照片颜色更接近实物颜色 。
 
04 音频技术提升体验和生产力
 
第三个观点是视频技术提升体验和生产力 。音频在过去几年都伴随视频出现,而在去年Clubhouse的发布,大家觉得音频可以独立玩,这对音频技术来说是一个很好的启发 。除此以外,音频的技术还可以辅助我们做内容的生产、审核及各种音频处理,个人认为音频会是后续很重要的生产力 。
 
4.1 业务:用户数和时长 

音视频算法在淘宝中的应用

文章插图
 
对内容业务来说,最核心的是用户数和时长 。对于技术来说,如何提升消费体验,提升主播生产效率,做好平台治理工作是核心工作 。在这几个方面音频都可以起到非常重要的作用 。
 
在主播角度,音频技术可以来做口播自动剪辑、来客提醒(不用一直守在电脑旁边)、开播辅助、字幕和配乐生成 。在用户角度,音频的互动可以支持连麦、游戏、猜价格、语音评论 。在平台角度,音频可以监管黄暴政、盗播、盗链、检测空镜 。
音视频算法在淘宝中的应用

文章插图
 
分享几个典型案例 。第一,音频技术提高音质体验 。这是一个简单的音频传输系统,采集、预处理、AEC/ANS/AGC、编码、网络传输(FEC/NACK技术)、对端(Jitter Buffer/NETEQ)、解码、重采样 。要实现高音质体验,我们在每个环节都需要做非常细致的工作:采集中做高保真,双声道处理(Alidenoise、回声抑制、智能美声),编码中做自适应码率(HE-AAC),传输过程要保障传输质量QOS(FEC/NACK),接收中还需要原音频数据(PLC/NETEQ),播放中应用各种音效技术(3D音效、空间音效、重低音)来提升收听体验 。
 
直播内容中,对音频的适配也非常重要 。(陈老师提到一个例子:如果是音乐直播间,用普通模板做音质会很差,所以需要几套针对不同类型直播间的声音模板 。)在这样的系统上,我们支持淘宝直播,语音聊天室等业务 。
 
4.2 AliDenoise——让声音更清晰 
音视频算法在淘宝中的应用

文章插图
 
淘宝自研的AliDenoise技术是一个智能降噪技术,可以使声音更清晰 。传统的降噪是根据时域傅里叶变换+维拉增益来做,痛点是对非平稳噪声抑制差,在低信噪比失效,而AliDenoise根据端到端的语音降噪,用数据驱动方式,基于先验信噪比方法做模型训练 。还有Cache Buffer的流式处理以及1D卷积+模型小型化的工作,核心优势是降噪能力强、语音保真度高(我们做了一些竞品对比,AliDenoise的主客观指标都超过竞品)、极轻量小模型(1.6M的模型可以在普通手机实现降噪,且CPU消耗只有6%)、延时可控(可根据设备能力做延时调节) 。
 
有三段音频,第一段是街边的场景,是原声;第二段是RTC处理后的效果(汽车走过的声音比较明显);第三段是AliDenoise处理后的效果,可以听出它对非平稳噪声的抑制很好,且人声保留度高 。
街边场景-原声
RTC处理后的效果
AliDenoise处理后的效果


推荐阅读