击败脸书和字节跳动 搜狗联合西工大ASLP斩获全球AI降噪挑战赛第一
文章图片
智东西(公众号:zhidxcom)
文|韦世玮
近日 , 一年一度的国际顶级语音大会InterSpeech2020落下帷幕 , 搜狗联合西北工业大学谢磊老师团队 , 音频、语音与语言处理研究组(ASLP@NPU)在微软举办的DeepNoiseSuppressionChallenge(DNS挑战)中 , 获得了实时赛道第一、非实时赛道第二的成绩 。
目前 , 搜狗与西工大ASLP在比赛中使用的神经网络模型论文《DCCRN:用于相位感知语音增强的深度复数卷积循环网络(DeepComplexConvolutionRecurrentNetworkforPhase-AwareSpeechEnhancement)》已被InterSpeech2020接收 。
文章图片
这场极具影响力的赛事亦吸引了亚马逊、索尼、Facebook、字节跳动、中国科学院声学所、卡耐基梅隆大学和首尔大学等全球知名企业及院校参赛 。
那么 , 搜狗究竟是如何一路过关斩将 , 从竞争激烈的挑战中脱颖而出?智东西特别与搜狗相关负责人聊了聊 , 在回顾这场精彩竞赛的同时 , 也进一步了解这项技术背后所带来的行业意义与价值 。
一、双赛道复杂语音难度高 , 实时赛道超亚马逊夺冠DNS挑战是一项单通道语音增强比赛 , 参赛者需要使用自己训练的AI模型对微软提供的盲测试集进行降噪处理 , 并由微软根据语音增强效果做出评测 。 据悉 , 微软为各位参赛者提供的数据集约长达500个小时 。
此外 , DNS挑战共分实时与非实时两条赛道 。
实时赛道中 , 经过模型处理的Tms/帧的语音 , 在2.4Ghz的Corei5四核处理器上的处理时长不能超过T/2ms , 同时使用的未来帧信息不能超过40ms 。
非实时赛道中 , 尽管该赛道对语音的处理时长没有明确的限制 , 但参赛者使用的未来帧也不能超过40ms 。
与此同时 , 官方提供的测试语音类型包含混响 , 以及在各种真实环境下录制的语音 , 大大提升了DNS挑战的难度系数 。
尽管如此 , 搜狗与西工大ASLP在复赛中还是以超过亚马逊0.03MOS分的成绩 , 取得了实时赛道第一名 。 而在非实时赛道中与德国布伦瑞克工业大学(TUBraunschweig)并列第二 , 仅次于亚马逊 。
文章图片
DNS挑战复赛结果
二、基于复数卷积模型 , 降噪精度提高据了解 , DCCRN降噪网络将近年效果较好的卷积循环神经网络拓展成复数卷积形式 , 并采用复数卷积与复数LSTM , 加上跳连有效地提升降噪能力 。
文章图片
DCCRN模型结构图
其中 , 复数卷积由原先的卷积核处理实部与虚部转变而成 , 两个卷积核分别处理实部与虚部 , 再通过复数乘法规则将其相连 , 有效地提升实部和虚部的估计精确度 。
文章图片
复数卷积
不难看出 , 与常规的AI降噪模型相比 , DCCRN降噪网络最主要的创新在于采用了复数卷积模型 。
“相比于常规的实数神经网络 , 复数卷积使用了复数乘 , 利用复数间的相关规则 , 以及实部和虚部之间的特性 , 有效地提升实部和虚部建模效果 。 ”搜狗相关研发人员谈到 。
但他也提到 , 对通话等具有低延迟要求的场景而言 , DCCRN降噪网络的延迟性能还需进一步优化 。
与此同时 , 除了进一步提升低延迟网络的降噪性能外 , 搜狗和西工大ASLP的研究人员还需针对低功耗设备 , 对内存和计算资源占用进行优化 。
三、率先落地搜狗AI录音笔 , 语音主观听觉得分提升30%实际上 , 目前国内外的AI降噪技术主要落地在语音通话等简单场景中 , 在录音笔等复杂场景中的落地仍较少 。
基于自身长期构建的搜狗录音笔业务 , 现阶段搜狗与西工大ASLP的这项AI降噪技术已应用于搜狗智能录音笔系列等终端设备 , 并同时提供实时降噪与非实时降噪的云端服务 。
搜狗研究人员谈到 , 与降噪前相比 , 使用DCCRN网络降噪后的语音主观听觉得分 , 提升了近30% , 不仅让录音笔在各类复杂的噪声场景中实现更清晰有效的拾音 , 亦大大提升了用户的听感体验 。
文章图片
例如 , 基于clairVoice8麦克风阵列算法和pureVoiceAI降噪算法 , 搜狗AI录音笔S1不仅能对汽笛声、风声、键盘声等4万种噪声进行深度智能降噪 , 同时还可根据用户周围的环境智能识别噪音 , 进行过滤消除 , 从而实现对人声的增强 。
有趣的是 , 在今年4月罗永浩的直播首秀中 , 他利用吹风机和揉糖纸的噪音对工作人员的录音环境进行了肆无忌惮的“骚扰“ , 但在搜狗S1录音笔开启AI降噪功能后 , 工作人员的声音亦变得十分清晰 。
据了解 , 除了搜狗AI录音笔之外 , 未来搜狗还计划进一步将这项AI降噪技术应用到搜狗输入法等语音产品中 , 并逐步由内而外地赋能行业更多的语音产品 。
结语:为语音行业发展提供更广阔想象空间在语音交互技术越来越日常化的今天 , 如何能在嘈杂环境中捕捉到人们想要获取的关键信息 , 亦是AI语音技术不断为之努力的方向 , 而搜狗AI降噪技术率先落地于AI录音笔 , 不仅是对更复杂语音场景中的一次挑战 , 亦为这项技术拓宽了落地路径 。
回顾这场全球顶级的语音大会 , 搜狗与西工大ASLP拿下的好成绩 , 不仅让我们看到了中国企业和院校在国际舞台上强劲的技术实力 , 同时也让我们对AI降噪技术在未来更广阔的行业应用充满想象 。
附:
比赛结果:https://dns-challenge.azurewebsites.net/phase1results
【击败脸书和字节跳动 搜狗联合西工大ASLP斩获全球AI降噪挑战赛第一】论文地址:https://arxiv.org/abs/2008.00264
Demo地址:https://github.com/huyanxin/DeepComplexCRN
推荐阅读
- 深圳市场监管|深圳进口冻品须入集中监管仓进行消杀和抽样核酸检测
- the|新冠肺炎成美国第三大致死原因 仅次于心脏病和癌症
- 不起眼的朗姐|和老人出去旅游,为什么会觉得心累?网友:只要老妈身体允许以后还要带她去,哈哈哈哈
- 人间风物志|游雍和宫:有人说这是北京必打卡景点之一,但我并不觉得非去不可
- 凌霄|以家人之名凌霄的结局是什么 凌霄最后会和尖尖在一起吗
- 李小璐|李小璐为何自毁前程也要和贾乃亮离婚?高晓松在15年前就道出真相
- 陈婷|凌霄贺子秋的结局,贺子秋母子团圆,凌霄或将和陈婷彻底划清界限
- 确诊病例|陕西新增2例境外输入确诊病例和3例无症状感染者
- 温和型的护肤品有哪些 盘点好用的敏感肌温和型护肤品牌
- 盖饭故事TheStory|玛丽莲·梦露情史:她和乔迪马吉奥之间跌宕起伏的感情