：在大困惑度条件下tSNE降级为PCA( 二 )

本文插图

PCA ， tSNE / UMAP处于极大的困惑度中/世界地图上的n_neighbor投影到Sphere ， S形和Swiss Roll
在这里，我们观察到了PCA图和tSNE图之间的显着相似之处。发生了什么？由于3D非线性流形（球体， S形和Swiss Roll）的内部维数仍然是2 ，因此人们希望一种合适的降维方法能够恢复PCA未能实现此目的的直觉是PCA通过仿射变换（例如旋转，翻转，平移，拉伸等）搜索数据中变化最大的轴。但是，通过旋转非线性流形并不会找到一个可以正确捕获感兴趣的变化的轴，该轴是世界地图中各大洲的位置，相反， PCA揭示的螺旋， S曲线和圆确实捕获了大部分可变化的轴。可以理解为什么PCA在非线性流形上失败，但是tSNE为什么没有更好的表现呢？这对于将世界地图嵌入到非线性3D中并不是唯一的但是，即使在性能良好的基准MNIST数据集上也可以检测到该特征，即大困惑度度值等于500和3000的tSNE图类似于PCA图。

本文插图

在非常大的tSNE困惑度度值下， MNIST手写数字簇变得不那么明显
这是怎么回事？tSNE难道不应该像本节开头显示的2D线性世界地图在困惑度度= 2000时发生的那样，使用正确保留的全局结构来重构原始数据吗？查看tSNE算法的内部，并意识到由于梯度下降中梯度的消失， tSNE退化为PCA 。

在大困惑度中检查tSNE的梯度
为了了解tSNE在很大的困惑度下会发生什么，我们需要回顾一下tSNE基于以下四个方程式，有关tSNE的优缺点的更多信息，请参阅我的文章：

本文插图

并检查一些重要的概念，例如数据的成对欧几里德距离分布， sigma值的分布，在某个距离处找到数据点的高维概率的分布，低维概率的分布，最后是KL散度的梯度值的分布。
可悲的是，所有这些度量标准都不容易从tSNE的当前实现中提取，我们需要检查KL散度的梯度是否在大的困惑度中消失，因为这将意味着tSNE中的梯度下降在用PCA初始化后永远不会正确开始。

本文插图

原则上，研究scikitlearn的tSNE代码，我们可以找到函数_joint_probabilities和_kl_divergence ，它们可以提供以下信息：

本文插图

在这里，我们可以看到随着困惑度参数的增加， KL梯度下降到几乎为零。对于将来的更全面的信息，从头开始实现tSNE是有意义的。下面的代码以数字方式再现了scikitlearn tSNE实现的输出但更紧凑，希望可以理解。

本文插图

本文插图

从头开始编程tSNE的好处是我们可以提取所需的任何信息，例如在不同的困惑度度值下KL梯度的演变，我们可以立即看到KL梯度在很大的困惑度度下迅速下降到零。嵌入的坐标停止更新，而我们最终只得到初始化时的坐标。

本文插图

因此，如果我们使用PCA初始化tSNE并增加困惑度度，则有可能以PCA图而不是以tSNE结尾。请注意，为简单起见，我使用术语PCA ，尽管更正确的说法是tSNE降级为多维标度（MDS）图.PCA和MDS在许多方面都相似，我将PCA（不是MDS）称为更流行和已知的技术。

：在大困惑度条件下tSNE降级为PCA( 二 )

推荐阅读

虫子爱搞笑|自己也没有准备好呢，身为老师的我

特朗普|二轮疫情爆发！病毒源头获证实，中方、世卫强强联合，特朗普犯难了！

患者|男子在手术中下体突然起火原因竟是放了个屁？

石军帅说娱乐|下次说话能不能离屏幕远一点，就剩下脸了，搞笑GIF：妹子

怎样在高考前生病，影响考试

【齐家网】梦之巢床垫材质介绍

江湖车侠吴瓜瓜|EV，或成潮流？还是为了挂牌？，开跑车组队买宏光MINI

|海南海事局：海南岛东南部海域将进行军事训练活动

灯笼裤配什么上衣好看

突发！阿富汗省长车队遭汽车炸弹袭击，致36人死伤

画中画照片用什么软件制作

时尚情|宽松舒适又遮肉，专治腿粗腿弯和胯宽，今年流行这3款“老爹裤”

专家推荐,三款养生茶助你抵挡春困来袭

#IT之家#ColorOS 7正式版4月升级计划公布，OPPO

提神又养身？枸杞拿铁、肉桂卡布奇诺……“老中医”同仁堂跨界卖咖啡火了

直播吧▲历史上的今天：队史射手王兰帕德打进蓝军生涯最后一球

缤FUN世界|视频电话喊“爷爷”，查尔斯笑开了花，一岁阿尔奇已会说简单词语

吴秀波|撒谎精？吴秀波儿子家暴后续：分手后女方跪舔，曾被母亲拿刀威胁

手机拨号键盘还有3个隐藏机关，一键按下，通话自动录音

开心娱乐馆|39岁童顏美女奇蹟冻龄素顏完胜小11岁女星