模范爸爸|| CCF-GAIR 2020,中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换
雷锋网按:2020年8月7日至9日 , 全球人工智能和机器人峰会(CCF-GAIR2020)在深圳圆满举行 。 CCF-GAIR2020峰会由中国计算机学会(CCF)主办 , 雷锋网、香港中文大学(深圳)联合承办 , 鹏城实验室、深圳市人工智能与机器人研究院协办 。
从2016年的学产结合 , 2017年的产业落地 , 2018年的垂直细分 , 2019年的人工智能40周年 , 峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台 。
8月8日 , 在由深圳市人工智能学会、CCF语音对话与听觉专业组协办的「前沿语音技术」专场上 , 中国科学技术大学电子工程与信息科学系副教授凌震华做了题为《基于表征解耦的非平行语料话者转换》的主题演讲 。
凌震华副教授现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听觉与对话专业组委员、中国语言学会语音学分会学术委员会委员、全国人机语音通讯学术会议常设机构委员会委员 。 2014-2018年曾任IEEE/ACMTASLP期刊副编辑 。
在演讲中 , 凌震华副教授主要从语音转换所基于的语料类型出发 , 介绍了平行语料下实现语音转换的技术演变过程 , 并由此延伸到非平行语料下的语音转换 。
其中在平行语料条件下 , 传统语音转换基于GMM(高斯混合模型)实现 。 2013年后深度学习技术被引入语音转换任务 , 基于产生式训练的深度神经网络(GenerativeTrainedDeepNeuralNetwork,GTDNN)等模型相继被提出 。 不过无论是GMM还是DNN , 都面临源与目标语音帧对齐过程中出现的误差和不合理问题 。 近年来提出的序列到序列(seq2seq)语音转换方法可以有效改善这一问题 , 提升转换语音的自然度与相似度 。
进一步 , 凌震华副教授谈到了在非平行语料条件下的语音转换 , 并表示这种场景普遍存在于实际应用中 , 也更有难度 。 基于非平行数据构造平行数据 , 以及分离语音中的文本与话者表征 , 是实现非平行语音转换的两条主要技术途径 。
随后 , 凌震华副教授重点介绍了所提出的基于特征解耦的序列到序列语音转换方法 , 该方法在序列到序列建模框架下实现语音中文本相关内容和话者相关内容的分离 , 取得了优于传统逐帧处理方法的非平行语音转换质量 , 接近使用同等规模平行数据的序列到序列语音转换效果 。
最后 , 凌震华副教授表示:
我们在进行语音转换的过程中 , 序列到序列建模方法在时长调整、长时相关性建模等方面有其优势 , 但是将该方法从平行数据条件推广到非平行数据条件存在挑战 。 特征解耦是解决这一问题的有效途径 , 通过序列到序列框架下的模型结构与损失函数设计可以获取相对独立的文本与话者表征 , 进一步实现非平行数据条件下的高质量语音转换 。
以下是凌震华副教授在CCF-GAIR2020「前沿语音技术」专场中的演讲内容全文 , 雷锋网对其进行了不改变原意的编辑整理:
谢谢大家 , 今天我的报告题目是《基于表征解耦的非平行语料话者转换》 。
之前各位老师已经介绍了语音技术领域的若干研究任务 , 如声纹识别、语音分离与增强等 。 话者转换是一种语音生成的任务 , 同时这个任务也和说话人的身份信息相关——之前介绍的声纹识别是从语音中识别身份 , 而话者转换是对语音中身份信息的控制和调整 。
推荐阅读
- 核聚变|中国若能掌握这十项技术,美国只能甘心叫中国爸爸
- 模范爸爸|我们的生活会发生哪些变化?,5G时代来了
- 唐邦知识产权|小爱同学”,你“爸爸”为你申请商标被驳,输在了时间上?,“嘿
- 鸠书影视|比起秘书,爸爸才是或人的救赎良药,《假面骑士零一》大结局
- 蓝橡树|激活大脑, 提升成绩, 逆袭名校?,牛娃爸爸分享: 孩子如何通过学习编程,
- 竞技体育大爆发|2020,英特尔夏磊:“智能X效应”促进行业应用融合及迅速创新|CCF-GAIR
- 阳光有一刻耀眼|瞬间明白了,“二马一王”的白手起家都是骗人的?看到首富的爸爸
- 晨娱秀场|看到第1张就沦陷了,爸爸“偷拍”妻子和女儿的照片火遍网络
- 模范爸爸|膜结纳米防护和纳米镀膜有什么区别,手机镀膜是真的吗
- 爸爸妈妈帮手|夏令营Day3—我们是飞行梦想家