为啥说principal component analysis 隐含条件是数据是服从多维高斯分布( 二 )


■网友
主成分是协方差阵谱分解后得到的各个正交的向量。由大数定律可以得知,来自任意分布的i.i.d.样本的经验协方差阵都依概率收敛到真实的协方差阵,通常下我们做主成分分析的那个协方差阵其实是这个经验协方差阵。所以主成分分析是有2个误差的:一个是用经验协方差阵代替真实的协方差阵带来的误差;另一个是对主成分截断后,舍弃的项带来的误差。你所说的问题,可能是出现在用经验协方差阵近似协方差阵这个环节中。是没有假定样本是i.i.d.的,所以牵扯出独立的问题了?因为独立样本,在正交空间的不同方向上的投影也应是独立的才对。看过一个很有趣的观点,可能会对你有点儿启发:随机变量X在给定某一条件F下的条件期望,可以看作是X在F生成的空间上投影后那个随机变量的期望。另,只有高斯分布下独立与不相关是等价的,否则仅能由独立推出不相关。


推荐阅读