如何正确选择聚类算法?( 二 )


最后,基于数据密度的聚类成为数据科学家心中的最爱 。(链接:http://www.mastersindatascience.org/careers/data-scientist/)这个名字已经包括了模型的要点——将数据集划分为聚类,计数器会输入ε参数,即“邻居”距离 。因此,如果目标点位于半径为ε的圆(球)内,则它属于该集群 。

如何正确选择聚类算法?

文章插图
 
 
具有噪声的基于密度的聚类方法(DBSCAN)将逐步检查每个对象,将其状态更改为“已查看”,将其划分到具体的类别或噪声中,直到最终处理整个数据集 。用DBSCAN确定的簇可以具有任意形状,因此非常精确 。此外,该算法无需人为地设定簇数 —— 算法可以自动决定 。
尽管如此,DBSCAN也有一些缺点 。如果数据集由可变密度簇组成,则该方法的结果较差;如果对象的位置太近,并且无法轻易估算出ε参数,那么这也不是一个很好的选择 。
总而言之,我们并不能说选择了错误的算法,只能说其中有些算法会更适合特定的数据集结构 。为了采用最佳的(看起来更恰当的)算法,你需要全面了解它们的优缺点 。
例如,如果某些算法不符合数据集规范,则可以从一开始就将其排除在外 。为避免繁琐的工作,你可以花一些时间来记住这些信息,而无需反复试验并从自己的错误中学习 。
我们希望本文能帮助你在初始阶段选择最好的算法 。继续这了不起的工作吧!
原文标题:
Choosing the Right Clustering Algorithm for your Dataset
原文链接:
https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html
编辑:黄继彦

【如何正确选择聚类算法?】


推荐阅读