最后,基于数据密度的聚类成为数据科学家心中的最爱 。(链接:http://www.mastersindatascience.org/careers/data-scientist/)这个名字已经包括了模型的要点——将数据集划分为聚类,计数器会输入ε参数,即“邻居”距离 。因此,如果目标点位于半径为ε的圆(球)内,则它属于该集群 。
文章插图
具有噪声的基于密度的聚类方法(DBSCAN)将逐步检查每个对象,将其状态更改为“已查看”,将其划分到具体的类别或噪声中,直到最终处理整个数据集 。用DBSCAN确定的簇可以具有任意形状,因此非常精确 。此外,该算法无需人为地设定簇数 —— 算法可以自动决定 。
尽管如此,DBSCAN也有一些缺点 。如果数据集由可变密度簇组成,则该方法的结果较差;如果对象的位置太近,并且无法轻易估算出ε参数,那么这也不是一个很好的选择 。
总而言之,我们并不能说选择了错误的算法,只能说其中有些算法会更适合特定的数据集结构 。为了采用最佳的(看起来更恰当的)算法,你需要全面了解它们的优缺点 。
例如,如果某些算法不符合数据集规范,则可以从一开始就将其排除在外 。为避免繁琐的工作,你可以花一些时间来记住这些信息,而无需反复试验并从自己的错误中学习 。
我们希望本文能帮助你在初始阶段选择最好的算法 。继续这了不起的工作吧!
原文标题:
Choosing the Right Clustering Algorithm for your Dataset
原文链接:
https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html编辑:黄继彦
【如何正确选择聚类算法?】
推荐阅读
- Redis如何高效可靠地实现主从复制?终于有人讲明白了
- 如何优化Mac电脑
- 浪潮TS850服务器,MegaRAID卡,如何做RAID?
- 什么是算法?如何学习算法?算法入门的学习路径
- 浙江省|2022 年应届生如何找到适合自己的工作?
- 如何增强体力和耐力?
- 硼砂对皮肤有伤害吗,如何预防
- 团购是怎么回事 如何看待网络团购是个陷阱
- 龙井 茶文化入世遗 西安千年茶韵如何传承
- 怎样正确使用空调?