搞数仓也得懂几个常用机器学习算法( 三 )


文章插图
 

搞数仓也得懂几个常用机器学习算法

文章插图
 

搞数仓也得懂几个常用机器学习算法

文章插图
 
计算各个特征属性的熵增益后,比较哪个熵增益最大,就选择该属性做第一分类特征 。
 
3、熵增益率(C4.5)
按照熵增益最大准则的ID3算法,遇到全部都是非重复值(类似ID)属性容易造成过拟合,因为如果根据ID这个属性进行划分发现此时的熵增益是最大的:
搞数仓也得懂几个常用机器学习算法

文章插图
 
信息增益率定义为:
搞数仓也得懂几个常用机器学习算法

文章插图
 
5、鸢尾花(iris)分类模型
搞数仓也得懂几个常用机器学习算法

文章插图
 
数据分布探索:
搞数仓也得懂几个常用机器学习算法

文章插图
 
4、剪枝处理
当训练数据量大、特征数量较多时构建的决策树过于庞大时,可能对训练集依赖过多,也就是对训练数据过度拟合 。从训练数据集上看,拟合效果很好,但对于测试数据集或者新的实例来说,并不一定能够准确预测出其结果 。因此,对于决策树的构建还需要最后一步--决策树的修剪,主要分为2种:预剪枝(Pre-Pruning)和后剪枝(Post-Pruning),这里先不讲 。
 
5、鸢尾花(iris)分类模型
Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例 。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种,数据集地址:


推荐阅读