另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
小汝子 4S店哭诉:曾经一台3万送车牌都没人买,停车场堆满众泰新能源车
-
-
cnBeta|诺贝尔物理学奖得主认为宇宙经历着死亡和重生的循环轮回
-
澎湃新闻|国家市场监管总局公布办公椅抽查结果:不合格率超两成
-
直播吧|现在我们是好朋友,克劳奇:双红会时曾险些向费迪南德挥拳
-
新冠肺炎|不戴口罩会如何?印度罚人坐灵车,灵车里放有新冠肺炎死者的尸体
-
-
#独孤西枫#走到分手这一步都是对方的错?,为什么有些人会认为
-
骨折|家有老人必看:这种骨折是“人生最后一次骨折”,死亡率达50%
-
-
【商城外宣微博】全国添衣指数地图出炉 看看你家要加几件衣服?
-
-
融资|[快讯]中关村科技园区管委会主任翟立新:新三板改革取得了阶段性的成效
-
-
人民日报客户端|外交部新任发言人汪文斌亮相 曾任驻突尼斯大使
-
智通财经|金宝通(00320)年度溢利同比增6.8%至1097.3万港元,末期股息每股0.0131港元
-
开心的娱乐番茄|平台价值释放“叠加效应”,土巴兔隐性植入热播剧
-
徕卡镜头|为什么华为选择徕卡,为什么iPhone不用徕卡镜头?
-
寸头|正邦科技:预计前三季度净利润同比增长10679.87%-11077.85%
-
拳击字典1979|VS 卡尔扎合,各自巅峰期,谁强?大数据对比,附投票,弗朗切