|如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数( 三 )
本文插图
本文插图
显然 , 我们可以使集群更加''紧密'' 。 是否可以通过某种方式将这种''紧度''归因于数字?
轮廓分数
该试图描述一个数据点的相似程度在其集群的其他数据点 , 相对于数据点并不在其集群(这是汇聚了所有数据点来获得总体集群分数) 。 换句话说 , 它考虑了集群在空间中的''区别度''-实际上人们可以使用任何''距离''度量来计算分数 。
它的范围是-1和1 。 接近-1表示群集不正确 , 而接近+1则表示每个群集都非常密集 。
metrics.silhouette_score(scaled_feature_data , cluster_labels)
本文插图
我们看到 , 所有聚类都没有超高的轮廓分数 。 有趣的是 , 我们看到平均链接集群的得分最高 。 但是请记住 , 该算法产生了两个群集 , 每个群集仅包含一个数据点 , 这在现实情况下不太可能是理想的结果(这是一个教训 , 您通常不能依靠单个指标来做出决策算法的质量!)
Calinski Harabaz指数
所述Calinski Harabaz指数是相对于点的数据点的方差相比 , 在其它簇的点的比率 , 对所述方差中的集群 。 由于我们希望第一部分较高 , 而第二部分较低 , 因此需要较高的CH指数 。 与我们看到的其他指标不同 , 此分数没有界限 。
metrics.calinski_harabasz_score(scaled_feature_data , cluster_labels)
本文插图
在这里 , 我们看到我们的K均值和Ward Linkage算法得分很高 。 完全和平均链接算法因具有一个或两个较大的聚类而受到惩罚 , 这将具有较高水平的内部方差 。
推荐阅读
- 模型|REVIT技巧!如何创建能量模型,实现能量优化
- 技术编程|如何利用数据库进行世界史研究
- 区块链|欧科云链任煜男做客西安广电电台节目,解读区块链如何赋能实体产业
- 苹果笔记本|如何让macbook合上时工作?解决苹果电脑合盖自动休眠问题-macw
- |如何分析“会员数据”,强化门店的竞争力?
- 拍照摄影|如何拍出赞爆朋友圈的自拍照?网红小姐姐公开拍照神器
- IOS系统|苹果免签封装如何实现?苹果免签封装会不会掉签?
- 帧数|帧数提升70% NV黑科技DLSS如何开启
- 拍照摄影|即将进入大学的新生想入手一台相机,该如何选?
- 月球|月球遗产如何保护?