文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异
传统的聚类方法比如k-means对于高维数据的效果是很差的。因为在高维度下距离的度量包含了大量随机扰动的结果。用PCA(或者LSI)降维以后那些随机扰动所在的分量都被滤掉了,所以聚类会有提高。总的来说引入很多没有信息量又带来噪声的维度总是会让聚类变差的。 另外统计工具经过发展之后已经能够处理高维的聚类问题了,比如LDA或者人工神经网络一类的方法。
■网友
【文档向量直接通过距离聚类和通过LSI降维后再聚类效果会有咋样的差异】 不管美国还是中国,ML领域都是一群CMU,不是CMU都不敢发言了
■网友
同意上面的看法,如果用传统的欧式距离,你会发现大家的距离都差不多,建议用余弦
■网友
同意劳兄的看法,鄙人一点浅显的看法是在高维空间中任何两点间的距离都是很远的,那么即便聚类后作为特征仍然未必很好。而SVD类的工具要有效地多。
推荐阅读
- 孕妇到了预产期,小孩还没有入盆,请问是该等下去还是直接剖腹产
- python的html5lib这个库咋使用啊我在网上也没有找到相关文档
- 啥是微信开发WEB前端
- |为了人气这么拼?千万网红钟婷为了流量,直接挂掉自己眉毛
- 为啥腾讯要关闭ios端的赞赏,而不是将支付费用直接乘以1.43倍
- 普通车|想买大型SUV就别等了这3款车现大降价,途昂直接优惠一辆卡罗拉
- 哪个数据库,可以直接做数据透视图(navicat类的也可以)
- glsl中向量的除法具体是啥运算过程
- 为啥微信没有为安卓平板推出客户端
- 趣头条|这次君越也不坚持了,直接就降到17.95万了