模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 三 ) 雷锋网按：2020年8月7日至9日

另外，这样的帧到帧映射模型不能转换时长。而实际情况是有的人说话比较快，有的人说话比较慢，怎么把说话人的语速特点体现出来呢？
这是我们设计的模型结构。模型输入除了从源说话人语音中提取的声学特征序列外，还拼接了利用语音识别声学模型提取的文本相关特征，以协助序列对齐。模型输出就是从目标说话人平行语句中提取的声学特征序列。其中输出与输入序列长度并不一致。
以下是实验结果。图中横坐标是真实目标说话人语音的时长，纵坐标是转换后的语音时长。如果语音转换模型有比较好的时长调整效果，那么数据点应该落在对角线上。图中绿色点所示的是传统逐帧转换方法的结果，从中可以看出源与目标发音人之间显著的语速差异。红色点对应的是所提出的序列到序列语音转换方法，可以看出其取得了良好的时长转换效果。
已有的非平行语料语音转换大体上有两个思路：
基于非平行数据构造平行数据。构造方法包括语音合成、帧挑选等。 CycleGAN神经网络模型也可以归入此类方法。
分离语音中的文本与话者表征。包括利用语音识别器提取音素后验概率(PPG)的方法，以及基于自编码器与变分自编码器的方法等。

模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 三 )

推荐阅读

小汝子 4S店哭诉：曾经一台3万送车牌都没人买，停车场堆满众泰新能源车

生活百科|人人都需要电动牙刷吗？

cnBeta|诺贝尔物理学奖得主认为宇宙经历着死亡和重生的循环轮回

澎湃新闻|国家市场监管总局公布办公椅抽查结果：不合格率超两成

直播吧|现在我们是好朋友，克劳奇：双红会时曾险些向费迪南德挥拳

新冠肺炎|不戴口罩会如何？印度罚人坐灵车，灵车里放有新冠肺炎死者的尸体

山西阳泉发生瓦斯爆炸事故，致2人死亡9人受伤

#独孤西枫#走到分手这一步都是对方的错？，为什么有些人会认为

骨折|家有老人必看：这种骨折是“人生最后一次骨折”，死亡率达50%

青年|王者荣耀吉哥：新版杨戬白抗螺纹靴？

【商城外宣微博】全国添衣指数地图出炉看看你家要加几件衣服？

碧螺春选购攻略,怎样贮藏碧螺春茶

融资|[快讯]中关村科技园区管委会主任翟立新：新三板改革取得了阶段性的成效

呼吸道疾病进入高发季节接种疫苗莫犹豫

人民日报客户端|外交部新任发言人汪文斌亮相曾任驻突尼斯大使

智通财经|金宝通(00320)年度溢利同比增6.8%至1097.3万港元，末期股息每股0.0131港元

开心的娱乐番茄|平台价值释放“叠加效应”，土巴兔隐性植入热播剧

徕卡镜头|为什么华为选择徕卡，为什么iPhone不用徕卡镜头？

寸头|正邦科技：预计前三季度净利润同比增长10679.87%-11077.85%

拳击字典1979|VS 卡尔扎合，各自巅峰期，谁强？大数据对比，附投票，弗朗切