音视频算法在淘宝中的应用( 五 ) _音视频算法

但HDR是一个端到端的系统，需要考虑到各种设备的兼容，所以我们做了一些适配来提升用户体验，比如普通相机拍出的内容就用普通通道传输解码，而一些高端设备支持HDR10，可以把内容做10Bit压缩，传输，在对端根据播放设备能力，做HDR To SDR、10Bit To 8Bit的转换来保证质量，对于好的手机就可以得到最好的HDR体验，一般手机也能得到基础的HDR体验。图中可以看到HDR技术使照片颜色更接近实物颜色。

04 音频技术提升体验和生产力

第三个观点是视频技术提升体验和生产力。音频在过去几年都伴随视频出现，而在去年Clubhouse的发布，大家觉得音频可以独立玩，这对音频技术来说是一个很好的启发。除此以外，音频的技术还可以辅助我们做内容的生产、审核及各种音频处理，个人认为音频会是后续很重要的生产力。

4.1 业务：用户数和时长

文章插图

对内容业务来说，最核心的是用户数和时长。对于技术来说，如何提升消费体验，提升主播生产效率，做好平台治理工作是核心工作。在这几个方面音频都可以起到非常重要的作用。

在主播角度，音频技术可以来做口播自动剪辑、来客提醒（不用一直守在电脑旁边）、开播辅助、字幕和配乐生成。在用户角度，音频的互动可以支持连麦、游戏、猜价格、语音评论。在平台角度，音频可以监管黄暴政、盗播、盗链、检测空镜。

文章插图

分享几个典型案例。第一，音频技术提高音质体验。这是一个简单的音频传输系统，采集、预处理、AEC/ANS/AGC、编码、网络传输（FEC/NACK技术）、对端（Jitter Buffer/NETEQ）、解码、重采样。要实现高音质体验，我们在每个环节都需要做非常细致的工作：采集中做高保真，双声道处理（Alidenoise、回声抑制、智能美声），编码中做自适应码率（HE-AAC），传输过程要保障传输质量QOS（FEC/NACK），接收中还需要原音频数据（PLC/NETEQ），播放中应用各种音效技术（3D音效、空间音效、重低音）来提升收听体验。

直播内容中，对音频的适配也非常重要。（陈老师提到一个例子：如果是音乐直播间，用普通模板做音质会很差，所以需要几套针对不同类型直播间的声音模板。）在这样的系统上，我们支持淘宝直播，语音聊天室等业务。

4.2 AliDenoise——让声音更清晰

文章插图

淘宝自研的AliDenoise技术是一个智能降噪技术，可以使声音更清晰。传统的降噪是根据时域傅里叶变换+维拉增益来做，痛点是对非平稳噪声抑制差，在低信噪比失效，而AliDenoise根据端到端的语音降噪，用数据驱动方式，基于先验信噪比方法做模型训练。还有Cache Buffer的流式处理以及1D卷积+模型小型化的工作，核心优势是降噪能力强、语音保真度高（我们做了一些竞品对比，AliDenoise的主客观指标都超过竞品）、极轻量小模型（1.6M的模型可以在普通手机实现降噪，且CPU消耗只有6%）、延时可控（可根据设备能力做延时调节）。

有三段音频，第一段是街边的场景，是原声；第二段是RTC处理后的效果（汽车走过的声音比较明显）；第三段是AliDenoise处理后的效果，可以听出它对非平稳噪声的抑制很好，且人声保留度高。
街边场景-原声
RTC处理后的效果
AliDenoise处理后的效果