DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一。近日 , 在第六届国际权威声学场景和事件检测及分类竞赛(DetectionandClassificationofAcousticScenesandEvents,DCASE2020)中 , 腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别(AcousticSceneClassification,Task1)任务竞赛 , 并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出 , 取得双项指标国内第一、国际第二的成绩 。

此次参赛是腾讯多媒体实验室领衔美国佐治亚理工大学信号与信息处理中心实验室 , 中国科技术大学语音及语言信息处理国家工程实验室联合参与 , 从最终评估的结果上看 , 在综合Task1a(不限制声学模型大小评估识别性能)与Task1b(限制模型大小条件下评估识别性能)两个任务中 , 取得了综合第一名的成绩 , 在两个子任务中分别位列第二名 , 与第一名分数相比仅差0.3% 。


DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

----DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一//----

Task1a上的队伍排名


DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

----DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一//----

Task1b上的队伍排名

DCASE比赛是由伦敦玛丽女王大学(QueenMaryUniversityofLondon)在2013年首次发起的声学场景识别挑战 , 后续由坦佩雷理工大学(TamperUniversityofTechnology)持续发起 , 近些年引起了国内外众多尖端声学研究界的广泛关注 , 包括谷歌、纽约大学等 。

本次DCASE2020比赛 , 共设置六个任务 , 包括声学场景识别、异常机器声音的非监督识别、声学事件检测、声学事件分离、城市声音标记和自动为音频生成标题纪要 , 吸引了包括亚马逊、英特尔、高通骁龙等国际公司和清华大学、新加坡南洋理工大学、香港中文大学等顶级高校的共138个队伍、473个有效系统参赛 。

其中 , 多媒体实验室所参加的声学场景识别任务(Task1) , 共有47支队伍与179个提交系统参与 , 是所有任务中参赛队伍最多、提交系统最多、竞争程序最激烈的任务 。 清华大学、北京大学(深圳)、新加坡南洋理工大学等国内外顶级高校 , 以及高通人工智能研究院(首尔)、美国Intel研究院(加利福尼亚)等知名通信、科技公司均在其中 。

Task1包含了两个子任务 , 子任务task1a的声学场景识别系统要求识别不同终端设备 , 比如手机、ipad或其它录音设备采集的音频 , 识别成不同的类别 。 如下图(左)所示 , 将不同设备不同场景采集的信号正确分类成“地铁站”、“公园”和“公共广场” 。 采用不同设备来评估场景识别系统就是为了验证系统对多种设备的鲁棒性 。 子任务task1b的声学场景识别系统限制性的将模型大小压缩在500k以内 , 在此条件下 , 需要场景识别系统尽可能高效的识别“室内”、“室外”、“交通”这三种常见的声学大场景 。 这里对声学模型大小提出要求的初衷就是为了更好地将现有科学研究方法迅速转换成可以真正意义的落地产品 , 以克服设备上运行深度学习网络高CPU消耗的难题 。


推荐阅读