|如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数( 三 )


本文插图

|如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数
本文插图

显然 , 我们可以使集群更加''紧密'' 。 是否可以通过某种方式将这种''紧度''归因于数字?

轮廓分数
该试图描述一个数据点的相似程度在其集群的其他数据点 , 相对于数据点并不在其集群(这是汇聚了所有数据点来获得总体集群分数) 。 换句话说 , 它考虑了集群在空间中的''区别度''-实际上人们可以使用任何''距离''度量来计算分数 。
它的范围是-1和1 。 接近-1表示群集不正确 , 而接近+1则表示每个群集都非常密集 。
metrics.silhouette_score(scaled_feature_data , cluster_labels)
|如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数
本文插图

我们看到 , 所有聚类都没有超高的轮廓分数 。 有趣的是 , 我们看到平均链接集群的得分最高 。 但是请记住 , 该算法产生了两个群集 , 每个群集仅包含一个数据点 , 这在现实情况下不太可能是理想的结果(这是一个教训 , 您通常不能依靠单个指标来做出决策算法的质量!)
Calinski Harabaz指数
所述Calinski Harabaz指数是相对于点的数据点的方差相比 , 在其它簇的点的比率 , 对所述方差中的集群 。 由于我们希望第一部分较高 , 而第二部分较低 , 因此需要较高的CH指数 。 与我们看到的其他指标不同 , 此分数没有界限 。
metrics.calinski_harabasz_score(scaled_feature_data , cluster_labels)|如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数
本文插图

在这里 , 我们看到我们的K均值和Ward Linkage算法得分很高 。 完全和平均链接算法因具有一个或两个较大的聚类而受到惩罚 , 这将具有较高水平的内部方差 。


推荐阅读