为啥在说话人识别技术中,i-vector取代了JFA
这是一个很有启发的问题~为了搞懂这个“为什么”,看了好一些Kenny的paper,但不能说找到了确切的答案,所以后面会有一些我的猜想和假设…想理解顶级大师的想法,我真的只能靠猜了啊QAQ……
首先,问题是JFA为什么要简化?从原有的speaker factor和channel factor简化为只有一个total factor,也就是现在闻名的i-vector,这个简化的操作是出自什么道理呢?
我们先回顾JFA的公式:
1、M是 M是待识别的句子,均值高斯超矢量GSV,它是基于UBM模型,用最大后验概率MAP去自适应当前句子而产生的GMM模型;再把GMM模型每个高斯分量的均值矢量,串接起来,就得到了M
2、m是UBM的均值超矢量,这就是一个与说话人和信道都无关的部分,可以看作为是一个基底;
3、V和D都与说话人相关;
【为啥在说话人识别技术中,i-vector取代了JFA】 4、V是说话人空间的本征音矩阵eigenvoice matrix,用于描述说话人的空间;
5、D是残差对角矩阵,和z结合,Dz描述每句utt所特有的一些残差和噪声(通常我们会忽略掉);
6、U是信道空间的本征信道矩阵;
7、y、x和z是他们各自对应空间的因子factor,都是服从N(0, I)分布的随机矢量;
然后,JFA可以看成这样子:
我们很好理解,JFA设计的初衷,是移除说话人均值超矢量在本征信道空间的影响,让 y 具有很好的抗信道失配能力;为了实现这个目的,Kenny就设想,用x这个信道因子只对信道空间进行建模,促使y只具有说话人的信息,这就完美提取了说话人表征~~这个idea简直Perfect,很理想~~
于是,他就想办法界定开这两个空间,尽可能让 y 纯粹包含说话信息,于是他(还有很多很多大牛)对计算JFA上提出了两个方法:1、联合估计法;
2、独立估计法;这两个方法估计的结果是相近的,不过对于第一个,时间和空间复杂度都相当高,通常大家都会选择后者来计算JFA;而后者,是先估计U,再估计V(这里就是我认为开始出问题的地方),这样就可以给后面计算V时,移除了信道空间的影响,这个顺序是为了尽可能保证V是干净的;
而计算这个U的过程,是先对JFA进行简化:
s 代表了与信道无关的说话人均值超矢量,此时JFA退化为只对本征信道的模型假设;估计U的过程就是先计算充分统计量,零阶后验概率,一阶去UBM后的联合概率,二阶对角方差矩阵,然后使用EM重估计,估计x的一阶与二阶,更新U,以此反复5-6次就可以认为收敛了;
但这个 s 又是如何弄呢?我对这部分也看不穿,大概方法如下:
将同一说话人各段语音累加,并使用 MAP自适应,所得统计量减去信道因素得到 s:
N是零阶,F是一阶,E是估计x的期望;
得到了U之后,就是去估计V和y,方法类似;最后就能得到JFA的各个参数值,待识别的utt转化为GSV,通过JFA计算对应的低维固定维度的说话人因子y;在用y算相似性求分数,那样说话人识别就完成了。
但实际真的有这么perfect吗??实际真的有这么perfect吗??
首先,信道条件本身是很难用数学公式来明确界定它;这就导致,特别是x这个信道因子,在对信道建模的同时,很有可能x也包含了说话人信息,进而把y的说话人信息给分薄了。
推荐阅读
- 为啥看到书柜上的藏书会有心旷神怡的感觉
- 为啥知乎上普便有一种【我在北上广深打工,所以拥有更好的视野】这样的错觉
- 为啥工商银行的用户体验如此之差
- 汽车|看了中消协4S店服务测评调查结果,终于知道法系车为啥卖不好了
- 你为啥从窝窝商城离职?
- 为啥5G和2.4G默认的BSSID是相同的
- 为啥电器实体店的价格比淘宝贵那么多
- 现在在线学习视频有很多了,为啥大部分人还是喜欢下载下来观看
- 为啥到现在你还没有女朋友 ?
- 天赐的声音|33岁张雨绮为啥总离婚?看过这些照片就明白了,都是性感惹得祸