:在大困惑度条件下tSNE降级为PCA( 三 )
但是 , 为什么KL梯度在大的困惑度中消失了呢?仔细观察一下 , 发现P和Q之间有一个有趣的相互作用 , 即在一定距离处观察数据点的高维和低维概率 。 复杂性 , 即P / Q接近1 , 并且从等式4开始 , KL梯度消失 , tSNE恶化 。
本文插图
用草率的表示法 , 回想起tSNE有一个重要的超参数 , 即早期夸张 , 它是高维概率P的倍增因子 , 可以将tSNE恶化条件记为:
本文插图
其中alpha是早期夸张 , N是样本大小 , sigma与困惑度有关 , X和Y是高维和低维数据点之间的平均欧几里得距离 。 上面的方程式连接了tSNE的最重要的超参数 , 除了对于在大困惑度下满足P = Q条件的学习速率而言 , 这无关紧要 。
总结
在本文中 , 我们了解到 , 需要在大型数据集上使用tSNE增加复杂度值 , 以便获得更多不同的簇并保留数据中的更多全局结构 , 这对于生物学解释不同簇之间的距离变得很重要但是 , 当KL梯度消失时 , 增加的困惑度度可能导致非线性tSNE降级到线性PCA / MDS尺寸减小 , 因此该算法永远无法正常启动 。 这有时会被错误地解释为“原始图像的完美重建”如果在线性数据上运行tSNE , 但是在非线性数据上以较大的困惑度运行tSNE时 , 显然会出错 。
【:在大困惑度条件下tSNE降级为PCA】