语音|亮剑INTERSPEECH 2020,思必驰10篇论文被收录
_原题为 亮剑INTERSPEECH 2020 , 思必驰10篇论文被收录
国际顶级的语音技术圈会议INTERSPEECH 2020于10月25-30日在中国上海举办 , 本次会议主题为“Cognitive Intelligence for Speech Processing” 。 思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会 , 支持大会在这不平凡的2020年顺利举行 , 致力推进产学研用的一体化进程 。
文章图片
思必驰-上海交通大学智能人机交互联合实验室
10篇论文被INTERSPEECH 2020收录
INTERSPEECH 2020共接收有效论文总数2100余篇 , 实际收录数量为1022篇 。 其中 , 思必驰-上海交通大学智能人机交互联合实验室10篇论文被正式收录 , 涉及说话人识别、语音识别及合成、多模态语音分离、口语语义理解等多方面的技术创新研究 。
10篇论文简要介绍如下:
《用于单通道多说话人语音识别的上下文嵌入表示学习方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多说话人语音识别是近年来的热门话题 。 本文探讨了利用上下文信息来提升多说话人语音识别的性能 。 我们设计了嵌入表示学习模型来直接从多说话人混合语音中准确地提取上下文嵌入表示 , 同时进一步提出了两种高级的训练策略来改进该新模型 , 即嵌入表示采样和两阶段训练 。 实验结果表明 , 我们的方法在多说话人语音识别上取得了显著改进 , 与端到端多说话人语音识别的基线模型相比 , 本文提出的方法减少了相对25%的词错误率 。
文章图片
图:基于上下文嵌入表示的多说话人语音识别模型结构
《在鸡尾酒会中聆听、观察、理解:音频-视频-上下文的多模态语音分离》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多个说话人同时说话时 , 人类可以通过听混合语音 , 观看说话者并理解上下文信息 , 将注意力集中在感兴趣的语音上 。 我们尝试使用三种模态(视觉模态、语音模态以及上下文信息模态)来解决与说话者无关的语音分离问题 。 与以前的应用纯音频/音视频模态的方法相比 , 我们设计了特定模型来直接从语音混合中提取所有目标说话人的上下文语言信息 , 然后将这些提取的上下文知识通过适当的注意力机制进一步合并到基于多模态信息的语音分离体系结构中 。 实验表明 , 在新提出的基于上下文信息的语音分离模型上可以观察到性能显著改善 。
文章图片
图:基于音频-视频-上下文的多模态语音分离示意图
《多模态作用很大: Voxceleb数据集上的性能飞跃》
Multi-modality Matters: A Performance Leap on VoxCeleb
来自不同模态的信息通常相互补偿 。 我们在说话人嵌入特征级别探索了视听人员验证系统的不同信息融合策略和损失函数 。 我们在说话人嵌入特征级别上使用视听知识的最佳系统在VoxCeleb1的三个公开测试列表上达到了0.585% , 0.427%和0.735%的EER , 这是该数据集上报告的最好的结果 。 此外 , 我们基于VoxCeleb1数据集构建了一个嘈杂的测试集 。 我们在说话人嵌入特征级别使用数据增广策略来帮助视听系统区分噪声和干净的嵌入 。 通过这种数据增广策略 , 所提出的视听人员验证系统在嘈杂的测试集上取得了更好的效果 。
文章图片
图:在带噪测试集上的性能比较
《BERT联合编码词混淆网络和对话上下文的口语语义理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口语理解可以将自动语音识别得到的假设转换为结构化的语义表示 , 语音识别错误会使后续口语理解模块的性能严重下降 。 为了缓解口语理解不确定性的问题 , 本文提出一种新颖的基于词混淆网络(WCN)和BERT预训练模型的口语语义理解模型(WCN-BERT SLU) , 对话上下文中的上一轮系统行为也被用作附加输入 。 该模型对WCN和对话上下文进行联合编码 , 在BERT架构中集成了词混淆网络的结构信息和语音识别的后验概率 。 在口语理解的基准数据集DSTC2上进行的实验表明 , 该方法大大优于以前的最佳模型 。
文章图片
图:与已发表结果在 DSTC2 数据集上的比较
《将部分共享神经网络应用于基于对抗训练的说话人验证领域自适应》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
推荐阅读
- 小妖说八卦|《亮剑3》太费发胶,张云龙打仗不忘抛媚眼,抗日剧变成偶像剧
- 贵州毕节 坚决守住耕地红线 向乱占耕地行为“亮剑”|贵州毕节:坚决守住耕地红线 向乱占耕地行为“亮剑”
- 中国电信|云生产、远程柜台、智能语音 看中国电信10000热线玩转新科技
- 次元快讯|亮剑3:制造大战后的痕迹,把脸抹黑的同时,请别忘了衣服!
- 胖次资讯|亮剑3:扛枪的楚云飞你见过,可你见过战场喝咖啡、抽雪茄的他吗?
- 马庆云的光影|《天下无拐》定档,郑昊吕良伟硬汉电影,何政军张光北打拐亮剑
- 士兵|亮剑:山本的特种兵实力有多强?这小兵的话,已经暴露战斗力了!
- 智能|小爱同学5.0发布:升级五大功能,从智能语音助手升级为智能生活助手
- 营救|亮剑:营救张大彪时,你看战士们手里拿的啥武器?抗日神剧脸红吗?
- 亮剑3|《亮剑3》今日首播,“发胶战士”即将登场,边打仗边抽雪茄