数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂( 三 )


2.分隔箱子里一堆红球和篮球
用一个平面将箱子里的红球和蓝球分成两部分 。
八、KNN(聚类)机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类 。
原理
计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别 。
计算步骤
1、根据场景,选取距离计算方式,计算待分类物体与其他物体之间的距离 。
2、统计距离最近的K个邻居 。
3、对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别 。
比喻说明:近朱者赤,近墨者黑 。
 九、K-Means(聚类)K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心 。

数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

文章插图
 
原理
1.随机选取K个点为分类中心点 。
2.将每个点分配到最近的类,这样形成了K个类 。
3.重新计算每个类的中心点 。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值 。
比喻说明
1.选老大
大家随机选K个老大,谁离得近,就是那个队列的人(计算距离,距离近的人聚合在一起) 。
随着时间的推移,老大的位置在变化(根据算法,重新计算中心点),直到选出真正的中心老大(重复,直到准确率最高) 。
2.Kmeans和Knn的区别
Kmeans开班选老大,风水轮流转,直到选出最佳中心老大 。
Knn小弟加队伍,离那个班相对近,就是那个班的 。
十、EM(聚类)EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法,也是聚类算法的一种 。
EM和K-Means的区别:
  1. EM是计算概率,KMeans是计算距离 。
  2. EM属于软聚类,同一样本可能属于多个类别;而K-Means属于硬聚类,一个样本只能属于一个类别 。所以前者能够发现一些隐藏的数据 。
原理
先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数 。
比喻说明:菜称重 。
很少有人用称对菜进行称重,再计算一半的分量进行平分 。
大部分人的方法是:
1、先分一部分到碟子 A 中,再把剩余的分到碟子 B 中 。
2、观察碟子 A 和 B 里的菜是否一样多,哪个多就匀一些到少的那个碟子里 。
3、然后再观察碟子 A 和 B 里的是否一样多,重复下去,直到份量不发生变化为止 。
10大算法都已经说完了,其实一般来说,常用算法都已经被封装到库中了,只要new出相应的模型即可 。

【数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂】


推荐阅读