为啥在说话人识别技术中,i-vector取代了JFA( 二 )


为了验证,假设了让本征信道矩阵只对信道信息建模,从而信道因子当且仅有信道信息,不含有说话人信息;如果这个假设是成立的,那JFA如果只使用 Ux来打分,就理应全错,EER = 50%;
但实际的结果:
为啥在说话人识别技术中,i-vector取代了JFA

在论文中,Dehak和Kenny就做了这个研究,实际上,EER是有20%,这就说明信道因子是包含了说话人信息。

20%的EER,这说话人的信息量一点都不少!距离50%可远着了~~为了解决这个问题,Restoring Lost Speaker Information from Channel Factors,Kenny他们可能想(我猜的)既然JFA这么理想的模型都界定不清,那不如来一个 快刀斩乱麻,先把GSV转化到低维鲁棒的特征,把移除信道影响的事儿扔给后面处理吧~~哈哈~~直接把 V和U合二为一,把这个新空间称之为total variability space,T矩阵,对应的因子称之为total factor,也就是i-vector了~~于是把JFA简化为:
为啥在说话人识别技术中,i-vector取代了JFA
从而i-vector这个概念就在2011年诞生了;现在T矩阵同时对说话人和信道两个空间建模,w也会带有信道信息。但这还没完,既然你把移除信道的影响挪到后面处理,那后续当然要更加做好i-vector的 信道补偿工作了。

在论文中,Kenny就交代了3个处理:
1、类内协方差归一化,within-class covariance normalization,WCCN;2、线性判别分析,linear discriminant analysis,LDA;3、扰动属性投影,nuisance attribute projection,NAP;
后面还有更闻名的,PLDA,从人脸识别那边移植过来的;这些算法都极大提升了i-vector的性能。或许会有人想问,既然提取出来的i-vector还是有信道信息,后续依然要做额外的处理,那为啥不直接基于GSV做??
这个问题,Kenny有提到了:对i-vector做不对GSV做,主要是因为GSV维度相当高,会有上万维(如果MFCCs是39d,高斯分量为2048的话,GSV就有39 * 2048 = 79,872),而i-vector通常是400-600,这就大大降低了计算代价;然后我额外想到,i-vector是去掉了通用部分m的,所以i-vector相比GSV可能更具有可区分性?

如果上面有错QAQ,请直接戳我,毕竟有猜的……参考: Front-End Factor Analysis for Speaker Verification
Discriminative and generative approaches for long and shortterm speaker characteristics modeling application to speaker verification
SVM BASED SPEAKER VERIFICATION USING A GMM SUPERVECTOR KERNEL AND NAP VARIABILITY COMPENSATION 联合因子分析中的本征信道空间拼接方法

■网友
谢dalao邀。。。但是我做CV。。。


推荐阅读