数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂( 二 )


将一系列的弱分类器以不同的权重比组合作为最终分类选择 。
计算过程
1、初始化基础权重 。
2、奖权重矩阵,通过已的分类器计算错误率,选择错误率最低的为最优分类器 。
3、通过分类器权重公式,减少正确样本分布,增加错误样本分布,得到新的权重矩阵和当前k轮的分类器权重 。
4、将新的权重矩阵,带入上面的步骤2和3,重新计算权重矩阵 。
5、迭代N轮,记录每一轮的最终分类器权重,得到强分类器 。
比喻说明
1、利用错题提升学习效率
做正确的题,下次少做点,反正都会了 。
做错的题,下次多做点,集中在错题上 。
随着学习的深入,做错的题会越来越少 。
2、合理跨界提高盈利
苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益 。
四、C4.5(决策树)决策就是对于一个问题,有多个答案,选择答案的过程就是决策 。
C4.5算法是用于产生决策树的算法,主要用于分类 。
C4.5使用信息增益率做计算(ID3算法使用信息增益做计算) 。
原理
C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率 。
信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类 。
比喻说明:挑西瓜 。
拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜 。
 五、CART(决策树)CART:Classification And Regression Tree,中文叫分类回归树,即可以做分类也可以做回归 。
什么是分类树、回归树?
分类树:处理离散数据,也就是数据种类有限的数据,输出的是样本的类别。
回归树:可以对连续型的数值进行预测,输出的是一个数值,数值在某个区间内都有取值的可能 。
回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型 。
原理
CART分类树
与C4.5算法类似,只是属性选择的指标是基尼系数 。
基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低 。
分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分 。
CART 回归树
采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征 。
比喻说明
分类:预测明天是阴、晴还是雨 。
回归:预测明天的气温是多少度 。
 六、朴素贝叶斯(条件概率)朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类 。

数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

文章插图
 
原理
假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B) 。
P(A):先验概率,即在B事件发生之前,对A事件概率的一个判断 。
P(B|A):条件概率,事件 B 在另外一个事件 A 已经发生条件下的发生概率 。
P(A|B):后验概率,即在B事件发生之后,对A事件概率的重新评估 。
比喻说明:给病人分类 。
数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

文章插图
 
给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率 。
七、SVMSVM:Support Vector machine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM 是有监督的学习模型 。
什么是有监督学习和无监督学习 ?
有监督学习:即在已有类别标签的情况下,将样本数据进行分类 。
无监督学习:即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类,分类好的类别需要进一步分析后,从而得知每个类别的特点 。
原理
找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面 。
硬间隔:数据是线性分布的情况,直接给出分类 。
软间隔:允许一定量的样本分类错误 。
核函数:非线性分布的数据映射为线性分布的数据 。
比喻说明
1.分隔桌上一堆红球和篮球
用一根线将桌上的红球和蓝球分成两部分 。


推荐阅读