语音|亮剑INTERSPEECH 2020,思必驰10篇论文被收录( 二 )


我们使用领域对抗训练来研究具有不同语言的数据集之间的领域自适应策略 。 这种架构可以帮助嵌入特征提取器学习域不变特征 , 同时不会牺牲说话者辨别能力 。 在SRE16粤语和菲律宾语评估测试集上实现了约25.0%的相对平均等错误率(EER)的改进 。
《基于双重对抗领域自适应的泛化重放攻击检测》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我们提出了对偶对抗领域自适应的框架 , 通过使用两个领域鉴别器分别对欺骗数据和真实数据进行细粒度的对齐 , 从而提高欺骗检测的性能 。 实验表明:该框架对于通用的重放攻击检测更加地鲁棒和有效 。
《噪声环境下通过半监督音频事件检测模型训练的语音端点检测器》
Voice activity detection in the wild via weakly supervised sound event detection
我们提出了两种弱监督训练的通用VAD模型 , GPV-F和GPV-B 。 在真实场景的测试中 , GPV-F模型比标准VAD模型提升很多 , GPV-B模型也获得和标准VAD模型可比的性能 。
《神经同态声码器》
Neural Homomorphic Vocoder
本文提出了神经同态声码器(NHV) , 一种基于源-滤波器模型的神经网络声码器框架 , 能够通过多分辨率 STFT 损失和对抗损失函数联合进行优化 , 计算效率高 , 可控性和可解释性好 。
《基于双编码器多专家模型结构的中英文语种混杂语音识别》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我们研究使用一种崭新的端到端模型来进行中英文语种混杂语音识别 。 实验结果表明 , 相比于基线的Transformer模型 , 我们的结构可以取得大幅度的性能提升 。
思必驰拥有全链路的软硬一体化端到端语音交互系统能力 , 近年来不断加码源头技术的持续创新 , 通过思必驰-上海交通大学智能人机交互联合实验室、上交大苏州智研院合作的共同努力 , 在模型泛化及快速定制能力、变帧率语音识别解码技术、说话人识别技术、超高压缩比神经网络模型压缩技术、多模态感知及理解和表达技术等方面 , 均有显著突破 。 围绕对话式AI能力 , 思必驰会不断夯实“全链路智能对话”技术以及“高自由度定制”方案能力 。 未来也会持续加大对基础源头技术创新与核心产品能力升级的核心投入 , 持续提升AI+智能终端、AI+智慧服务的快速规模化能力 , 加速向更多行业场景纵深赋能 。
思必驰xiaochi获2020 AESR
“口音种类识别“冠军和“口音英语语音识别”亚军
2020 AESR , 即“INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech Recognition)” , 向参赛者开放八种口音英文数据 , 设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道 。 由思必驰组建的“xiaochi”队伍表现优异 , 分别获得“口音种类识别”第一名(全球共30个队伍参赛) , 和“口音英语语音识别”第二名(全球42个队伍参赛) 。
语音|亮剑INTERSPEECH 2020,思必驰10篇论文被收录
文章图片

语音|亮剑INTERSPEECH 2020,思必驰10篇论文被收录
文章图片

在“Track1-口音种类识别”技术挑战赛中 , 参赛队伍需要使用官方提供的各种口音英文的训练数据 , 训练语种分类模型 。 xiaochi队伍的准确率高出第二名11个百分点 , 最终摘得冠军 。
数据策略上 , xiaochi对8种口音训练音频进行变语速数据增强 , 利用kaldi工具模拟噪声和远场 , 使用8种口音训练数据+librispeech数据训练TTS合成器 , 并生成8种口音训练音频 , 最后对测试音频采用sox变语速后与原始音频拼接 。 模型训练时 , 采用了多机多卡的并行训练策略 , 有效降低了模型迭代和实验速度 。 最终我们采用深层的TDNN模型 , 结合AAM loss等进行优化 , 来训练8种口音的8分类模型 。
经过多个不同策略组合的实验测试 , 最终发现 , “利用PPG等特征 , 结合基于tts的数据生成 , 多嵌入多层联合优化”等方法 , 能够最高效快速识别不同口音种类 。 这也为未来业界进行多语种混合识别提供了很好的参考策略 。
思必驰语音应用负责人薛少飞
参与INTERSPEECH工业论坛并在线分享
今年INTERSPEECH 2020首次推出虚拟展会 , 以直播的方式举办在线论坛 。 思必驰高级技术总监、语音应用技术负责人薛少飞 , 10月29日(今晚)将在线分享思必驰在语音识别、语音唤醒、音频检测等语音交互关键技术方面的新进展 。
语音|亮剑INTERSPEECH 2020,思必驰10篇论文被收录
文章图片

直播时间:
10月29日(周四)晚20:30-20:50
直播地址
【语音|亮剑INTERSPEECH 2020,思必驰10篇论文被收录】https://interspeech2020.baai.ac.cn/live/55


推荐阅读