:在大困惑度条件下tSNE降级为PCA
本文插图
本文插图
本文试图以一种简单的方式来解释一些在生物信息学和计算生物学中使用的神秘分析技术 。 将详细介绍使用高困惑度的tSNE时会出现一些陷阱 , 例如将非线性tSNE转换为线性PCA尺寸缩减 。
为什么要使用具有大困惑度的tSNE
随着数据集规模的增长 , 例如在scRNAseq领域中 , 处理成千上万甚至数百万个细胞几乎是一种常规 , 在大型数据集上使用超出建议范围(5到50)的大困惑度的tSNE变得越来越多 。 的确 , 在大型数据集上使用默认的困惑度可能不会提供足够的信息 , 因为它经常导致数据点的聚集程度降低 , 这在一些出版物中已经显示出来 , 在这里也可以看到很好的讨论 。
本文插图
较小的困惑度度值不允许解析数据结构
即使对于行为良好的MNIST基准数据集 , 小困惑度和大困惑度之间的区别也很明显:更大的困惑度导致tSNE降维图中的群集更加明显 。
本文插图
当增加tSNE困惑度度值时 , MNIST手写数字图像簇变得更加清晰
随着数据集规模的增长 , 这一点变得越来越重要 。 您可能想在大型数据集上使用tSNE增加困惑度度值的第二个原因是tSNE可能存在的长期假设 。 在大的复杂度下保留更多的全局数据结构 , 以这种方式可以与UMAP进行比较 。 为了演示这一点 , 让我们模拟3个2D数据点的高斯Blob(每个1000点):两个Blob彼此靠近而远离第三个 。
现在 , 我们将尝试重建运行tSNE的原始数据 , 并使用不同的困惑度度值:10、30、100和1000 。
本文插图
在这里 , 我们可以做两个重要的观察:首先 , 在较低的困惑度度值10甚至30时 , 数据结构并不明显 , 的确 , 如果我不给这些点着色 , 甚至很难猜测我们在tSNE中看到了多少个斑点由于数据点似乎形成了10个和30个困惑度点 , 因此为了解决这三个簇 , 我们需要将困惑度度值增加到100 , 其次 , 注意困惑度度等于10、30和100 。 尽管我们知道它们中的两个应该放置在一起并与第三个分开 , 但这三个集群似乎是等距的 。 只有当我们将困惑度度增加到1000时 , 才能获得正确的集群相对位置(全局数据结构) , 这远远超出了5至50之间的建议值 。 在那里 , 大的困惑度限制对于从scRNAseq数据上的tSNE图生物学解释细胞群体的紧密度至关重要 。
tSNE在很大的困惑度下类似于PCA
现在 , 在我们意识到tSNE的大困惑度极限的重要性之后 , 让我们在World Map数据集的二维线性流形(3023点)上评估tSNE在大困惑度下 。
本文插图
使用tSNE和大困惑度值重建的2D世界地图数据集
在这里 , 我们可以看到tSNE错误地将南美置于非洲和北美之间 , 其困惑度度为500和1000 , 但是 , 当困惑度度达到2000时 , 我们几乎可以完美地重建原始的世界地图数据集 , 其中各大洲之间的所有相对距离似乎要很好地保存 , 这似乎令人放心 , 这表明如果要使用tSNE在数据中保留更多的全局结构 , 仅增加增加困惑度度值就足够了 。 我们将原始的线性2D世界地图数据集投影到非线性流形(例如球体)上 , 这样我们就模拟了将大洲映射到球体表面的3D地球 。 让我们在tSNE上运行具有较大困惑度度的值非线性3D地球/球体数据集并将其输出与PCA和UMAP进行比较 。 此外 , 我们还将2D数据集投影到其他著名的非线性流形上 , 例如S形曲面和Swis 滚动运行PCA和tSNE / UMAP时 , 会感到非常困惑度/ n_neighbor 。 请注意 , tSNE和UMAP均已通过PCA进行了初始化 。