科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验？鱼羊发自凹非寺量子位报道|公众号QbitA

鱼羊发自凹非寺量子位报道|公众号QbitAI
一个成立不到两年的团队，两个初入职场的新人，杀入顶会挑战赛能拿下怎样的成绩？
时限是， 10天。
近日，全球语音顶会INTERSPEECH2020「口音英语语音识别挑战赛」结果公布，一支名叫「大耳朵图图喵喵喵」的团队摘下了两大赛道的第二名和第三名。
参赛选手是这位：

文章图片
△大耳朵图图本喵
啊不，其实来自他们当中。

文章图片
说起网易有道与AI语音技术相关的产品，大家或许都不陌生，比如丁磊多次安利、上市都带着的有道词典笔……
相比在市场上取得的认可，许多人可能不会想到，有道AI语音背后的团队非常年轻：成立不到两年，大部分都是应届生，来自知名语音实验室，或者海外高校深造项目。
「参赛其实是验证技术方案」
此次拿奖的时来和HarryWu（均为花名），就是今年7月刚刚加入网易有道的应届生。

文章图片
事实上，打这场比赛，对于他们而言更像是一次对工作成果的「突击测验」：被通知要参赛时，距离提交测试结果的截至日期只剩下10天了。
时间紧迫，两人临时组队，又是代表团队第一次出征算法赛事，但在心态上他们倒还真一点也不慌。
用有道之前积累的技术去参赛， 10天也足够了。
攻坚克难了这么久，是时候拿出来检验一下了。
INTERSPEECH2020「口音英语语音识别挑战赛」由中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家重量级机构联合举办，共分为两个赛道：
Track1是口音种类识别，参赛者需要使用官方提供的各种口音英语训练数据，训练语种分类模型。
Track2则是口音英语语音识别，参赛者需要使用规则限定的训练数据，训练语音识别模型。

文章图片
简单来说，一方面是要做英语口音的分类，另一方面是要做语音识别，把带口音的英语语音转成文字。
时来和Harry的工位就挨在一起，两人当即一合计，觉得在语音识别方面，基本可以原封不动地用上现成的技术——有道词典、精品课、云笔记等一系列产品里都有ASR技术的身影，平时的研发工作中，早已经考虑到了复杂口音的情况，识别准确率和响应速度都是经过实战检验的。
而在口音分类这个比较新颖的任务上，他们正在研究中的多语种技术方案正好能够派上用场：
原来会觉得相关的技术方案还处在实验室阶段，要实际应用起来还需要学术界进一步验证。但既然比赛有这个机会，正好可以拿这个方法试验一下。
程序员打比赛，就是直接开干，效率拉满——就在工位上随时讨论。而事后两人回想起来，印象最深的不是时间有多紧、加了多少班，恰恰是设计算法、测试结果的这个过程：
一开始，在口音分类这个全新的任务上，两人想到这会跟说话人的特征有比较强的相关性。而在引入这一信息之后，他们的方案还真在开发集上取得了令人惊喜的效果。
但在测试集开放之后，进一步的验证结果却差强人意。直到比赛结束，测试集公布，他们才发现测试集里说话人的数目，是训练集和开发集加起来的差不多10倍，即一个说话人非常复杂的场景。
虽说碰上了这样那样的小波折，但其实对于两位语音算法工程师而言，这反而更加坚定了他们攻关AI语音技术的决心：语音领域技术相对成熟，但远没有到「做完了」的程度，现实的复杂场景、各种各样的噪音、方言口音，都仍有值得钻研之处。

科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验？

推荐阅读

激光切割技术有哪些

宝马|全新宝马5系内饰曝光！首次用上大连屏

猪儿熊的王者梦|抢先服更新S21赛季，百里守约被大削，射手入驻野区已成定局

南北大菜菜谱

珠宝|这款耳环王室女性人手一对？谁不爱这种华丽丽的宝石呢

海贼资讯@嘴角红色痕迹明显，却坚持录节目，于朦胧玩游戏时不小心受伤

全国能源信息平台特斯拉能否成为锂电池界的下一个颠覆者？

|别傻了，没有一份工作是不辛苦的

第一财经|工信部将编制“十四五”软件等产业规划，相关概念股或将受益丨牛熊眼

搞笑男人心▲也配当销量王？，“国民神车”被揭下遮羞布？车主：买“锈”送车

英国上空现巨型飞蚁群|【令人震惊】英国现巨型飞蚁群太空可观测到把气象雷达都“搞晕”了

『手机大魔王』3月份手机别乱买，骁龙730G+30W闪充，4G性价比太香了

白醋洗脸有什么好处？它可以美白你的皮肤去除斑点和皱纹但不能滥用

[敏敏健康]再好吃也少碰，脂肪肝不请自来？肝胆科医生警告：4种食物1种饮料

[巴塞罗那]晚上11点！巴萨突遭重创：1.7亿妖星受伤倒下梅西头疼了

网络延迟高是什么原因，电视检测网络延迟异常什么原因？

央视网|暴雨内涝致98岁老人被困四川芦阳民警紧急转移

生活象雨说|会撒娇的女人也要会减肥：张嘉倪泡脚减肥法，一周瘦几斤

我想要一个什么样的房子?一座小房子的故事内容

总统|厄瓜多尔选出新副总统