为啥说principal component analysis 隐含条件是数据是服从多维高斯分布
独立一定不相关,不相关不一定独立,“只有”高斯的时候,两者才等价。这也是高斯分布最可爱的特性之一。至于为什么,这个反而最简单:随便找一本概率论的本科教材都有推导,或者自己根据定义推一推,很简单,不赘述。
■网友
我不知道是否理解了题主的意思,如下:我来解释一下"为什么orthogonal就是uncorrelated",这不完全正确。我们设这组sample是由零均值的随机向量(random vector)的
生成,在两两正交且归一化的
方向投影,得到投影后
的一组随机变量。首先明确一点这组随机变量两两之间不是uncorrelated。当在
是由PCA求解得出的那组正交向量的情况下,这组随机变量才是uncorrelated,即题主笔记中所说"各维度投影后的数据是uncorrelated的"。理由是PCA解出那组正交向量正好是
的协方差矩阵
的特征向量,所以
当
,即uncorrelated。在假设高斯分布情况下,uncorrelated即independent。我对独立性在PCA的分析中的作用没有很好的理解,不过对于高维高斯假设倒是有一些理解:首先对于所有两两正交且归一化的
,我们都会有:
, 其中
。现在考虑
两两uncorrelated, 则考虑协方差矩阵
。注意uncorrelated会使得交叉项消失。此时,若 【为啥说principal component analysis 隐含条件是数据是服从多维高斯分布】
很小,那么我们将其对应投影舍去,那么对协方差矩阵影响不会太大。对于高斯分布来说,它仅仅由均值(此处为0)和协方差矩阵描述。若协方差矩阵改变不大,那么这个高斯分别不会改变太大,从而"信息"得到比较好的保留。从而"主要"的成分得以保留。这也是PCA用来降维的理由之一。只能说高斯假设下,主成分分析PCA很有道理。事实上,观看高维高斯分布形成的高维椭球体(此处形成一词不严格,感性认识一下),椭球体的主轴方向恰好会是协方差矩阵的特征向量的方向(可证)。以上都只是我个人理解,如有错误还请指正。PS: 注意一点是两个变量是uncorrelated 实际上是非线性相关,并不是没有关系,只是这个线性被默认省略了。
推荐阅读
- 为啥看到书柜上的藏书会有心旷神怡的感觉
- 为啥知乎上普便有一种【我在北上广深打工,所以拥有更好的视野】这样的错觉
- 为啥工商银行的用户体验如此之差
- 汽车|看了中消协4S店服务测评调查结果,终于知道法系车为啥卖不好了
- 你为啥从窝窝商城离职?
- 为啥5G和2.4G默认的BSSID是相同的
- 为啥电器实体店的价格比淘宝贵那么多
- 现在在线学习视频有很多了,为啥大部分人还是喜欢下载下来观看
- 为啥到现在你还没有女朋友 ?
- 天赐的声音|33岁张雨绮为啥总离婚?看过这些照片就明白了,都是性感惹得祸