搞数仓也得懂几个常用机器学习算法( 三 )

2022-05-05 机器学习算法

文章插图

搞数仓也得懂几个常用机器学习算法

文章插图

搞数仓也得懂几个常用机器学习算法

文章插图

计算各个特征属性的熵增益后，比较哪个熵增益最大，就选择该属性做第一分类特征。

3、熵增益率（C4.5）
按照熵增益最大准则的ID3算法，遇到全部都是非重复值（类似ID）属性容易造成过拟合，因为如果根据ID这个属性进行划分发现此时的熵增益是最大的：

搞数仓也得懂几个常用机器学习算法

文章插图

信息增益率定义为：

搞数仓也得懂几个常用机器学习算法

文章插图

5、鸢尾花(iris)分类模型

搞数仓也得懂几个常用机器学习算法

文章插图

数据分布探索：

搞数仓也得懂几个常用机器学习算法

文章插图

4、剪枝处理
当训练数据量大、特征数量较多时构建的决策树过于庞大时，可能对训练集依赖过多，也就是对训练数据过度拟合。从训练数据集上看，拟合效果很好，但对于测试数据集或者新的实例来说，并不一定能够准确预测出其结果。因此，对于决策树的构建还需要最后一步--决策树的修剪，主要分为2种：预剪枝（Pre-Pruning）和后剪枝（Post-Pruning），这里先不讲。

5、鸢尾花(iris)分类模型
Iris 鸢尾花数据集是一个经典数据集，在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于（iris-setosa, iris-versicolour, iris-virginica）中的哪一品种，数据集地址：

推荐阅读

上一篇：古树红茶是什么水温泡,红茶用什么壶泡

下一篇：般红茶能泡几次,红茶必须用开水泡吗