科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验?

鱼羊发自凹非寺量子位报道|公众号QbitAI
一个成立不到两年的团队 , 两个初入职场的新人 , 杀入顶会挑战赛能拿下怎样的成绩?
时限是 , 10天 。
近日 , 全球语音顶会INTERSPEECH2020「口音英语语音识别挑战赛」结果公布 , 一支名叫「大耳朵图图喵喵喵」的团队摘下了两大赛道的第二名和第三名 。
参赛选手是这位:
科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验?
文章图片
△大耳朵图图本喵
啊不 , 其实来自他们当中 。
科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验?
文章图片
说起网易有道与AI语音技术相关的产品 , 大家或许都不陌生 , 比如丁磊多次安利、上市都带着的有道词典笔……
相比在市场上取得的认可 , 许多人可能不会想到 , 有道AI语音背后的团队非常年轻:成立不到两年 , 大部分都是应届生 , 来自知名语音实验室 , 或者海外高校深造项目 。
「参赛其实是验证技术方案」
此次拿奖的时来和HarryWu(均为花名) , 就是今年7月刚刚加入网易有道的应届生 。
科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验?
文章图片
事实上 , 打这场比赛 , 对于他们而言更像是一次对工作成果的「突击测验」:被通知要参赛时 , 距离提交测试结果的截至日期只剩下10天了 。
时间紧迫 , 两人临时组队 , 又是代表团队第一次出征算法赛事 , 但在心态上他们倒还真一点也不慌 。
用有道之前积累的技术去参赛 , 10天也足够了 。
攻坚克难了这么久 , 是时候拿出来检验一下了 。
INTERSPEECH2020「口音英语语音识别挑战赛」由中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家重量级机构联合举办 , 共分为两个赛道:
Track1是口音种类识别 , 参赛者需要使用官方提供的各种口音英语训练数据 , 训练语种分类模型 。
Track2则是口音英语语音识别 , 参赛者需要使用规则限定的训练数据 , 训练语音识别模型 。
科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验?
文章图片
简单来说 , 一方面是要做英语口音的分类 , 另一方面是要做语音识别 , 把带口音的英语语音转成文字 。
时来和Harry的工位就挨在一起 , 两人当即一合计 , 觉得在语音识别方面 , 基本可以原封不动地用上现成的技术——有道词典、精品课、云笔记等一系列产品里都有ASR技术的身影 , 平时的研发工作中 , 早已经考虑到了复杂口音的情况 , 识别准确率和响应速度都是经过实战检验的 。
而在口音分类这个比较新颖的任务上 , 他们正在研究中的多语种技术方案正好能够派上用场:
原来会觉得相关的技术方案还处在实验室阶段 , 要实际应用起来还需要学术界进一步验证 。 但既然比赛有这个机会 , 正好可以拿这个方法试验一下 。
程序员打比赛 , 就是直接开干 , 效率拉满——就在工位上随时讨论 。 而事后两人回想起来 , 印象最深的不是时间有多紧、加了多少班 , 恰恰是设计算法、测试结果的这个过程:
一开始 , 在口音分类这个全新的任务上 , 两人想到这会跟说话人的特征有比较强的相关性 。 而在引入这一信息之后 , 他们的方案还真在开发集上取得了令人惊喜的效果 。
但在测试集开放之后 , 进一步的验证结果却差强人意 。 直到比赛结束 , 测试集公布 , 他们才发现测试集里说话人的数目 , 是训练集和开发集加起来的差不多10倍 , 即一个说话人非常复杂的场景 。
虽说碰上了这样那样的小波折 , 但其实对于两位语音算法工程师而言 , 这反而更加坚定了他们攻关AI语音技术的决心:语音领域技术相对成熟 , 但远没有到「做完了」的程度 , 现实的复杂场景、各种各样的噪音、方言口音 , 都仍有值得钻研之处 。


推荐阅读