文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异

传统的聚类方法比如k-means对于高维数据的效果是很差的。因为在高维度下距离的度量包含了大量随机扰动的结果。用PCA(或者LSI)降维以后那些随机扰动所在的分量都被滤掉了,所以聚类会有提高。总的来说引入很多没有信息量又带来噪声的维度总是会让聚类变差的。 另外统计工具经过发展之后已经能够处理高维的聚类问题了,比如LDA或者人工神经网络一类的方法。
■网友
【文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异】 不管美国还是中国,ML领域都是一群CMU,不是CMU都不敢发言了

■网友
同意上面的看法,如果用传统的欧式距离,你会发现大家的距离都差不多,建议用余弦
■网友
同意劳兄的看法,鄙人一点浅显的看法是在高维空间中任何两点间的距离都是很远的,那么即便聚类后作为特征仍然未必很好。而SVD类的工具要有效地多。


    推荐阅读