文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异传统的聚类方

传统的聚类方法比如k-means对于高维数据的效果是很差的。因为在高维度下距离的度量包含了大量随机扰动的结果。用PCA(或者LSI)降维以后那些随机扰动所在的分量都被滤掉了，所以聚类会有提高。总的来说引入很多没有信息量又带来噪声的维度总是会让聚类变差的。另外统计工具经过发展之后已经能够处理高维的聚类问题了，比如LDA或者人工神经网络一类的方法。
■网友
【文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异】 不管美国还是中国，ML领域都是一群CMU，不是CMU都不敢发言了

■网友
同意上面的看法，如果用传统的欧式距离，你会发现大家的距离都差不多，建议用余弦
■网友
同意劳兄的看法，鄙人一点浅显的看法是在高维空间中任何两点间的距离都是很远的，那么即便聚类后作为特征仍然未必很好。而SVD类的工具要有效地多。

文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异

推荐阅读

最对胃口的人气家常菜自制柚子糖宝宝辅食食谱

两小时入门 Docker

辣条|女孩经期被罚吃“死亡辣条”就医后遭劝退，公司回应

河北省启动三级应急响应具体什么情况？河北省启动三级应急响应时间过程详解

什么手机最好用，性能最好的手机前十位

精英联盟总队|更安全！辽宁网络餐饮“食安封签”全域投放，一餐一封签

诗词歌赋|罗隐堪称唐朝第一杠精，写了一首《雪》，20字让人无言以对

树袋熊|这个技术，让我放弃了戴套

乔欣|乔欣“变脸”认不出，晒自拍被错认成高圆圆李沁，还撞脸佘诗曼？

画风|黄帝的妻子爱搞发明，尧帝的妻子降龙伏虎，他的妻子画风不一样！

黄大茶制造工序,2008年大益红青饼

翡翠|清嘉庆和田玉籽料苍龙教子双联印玉印印章

曼联|下课倒计时！索帅被告知已不再计划；替代者太多在门口排队了！

[接地插座]接地插座的安装 ***

来来老A|报考高中志愿的方法和注意事项

明星道八卦|矛盾直刺人心，一个黑人足以击垮“美帝”？数千亿美元损失的背后

天梯|不想看到啥？阿女望月生下颛顼帝后，黄帝曾孙截断天地间“天梯”

|中式仿古自建房设计图，与传统元素相结合，适合现代生活习惯

裙子|阿姨这衣服很独特,看起来既像裤子又像裙子,我只想知道这是怎么穿上去的

|70、80后“集体失声”：生存现状太难了！原因很真实