文章插图
文章插图
文章插图
计算各个特征属性的熵增益后,比较哪个熵增益最大,就选择该属性做第一分类特征 。
3、熵增益率(C4.5)
按照熵增益最大准则的ID3算法,遇到全部都是非重复值(类似ID)属性容易造成过拟合,因为如果根据ID这个属性进行划分发现此时的熵增益是最大的:
文章插图
信息增益率定义为:
文章插图
5、鸢尾花(iris)分类模型
文章插图
数据分布探索:
文章插图
4、剪枝处理
当训练数据量大、特征数量较多时构建的决策树过于庞大时,可能对训练集依赖过多,也就是对训练数据过度拟合 。从训练数据集上看,拟合效果很好,但对于测试数据集或者新的实例来说,并不一定能够准确预测出其结果 。因此,对于决策树的构建还需要最后一步--决策树的修剪,主要分为2种:预剪枝(Pre-Pruning)和后剪枝(Post-Pruning),这里先不讲 。
5、鸢尾花(iris)分类模型
Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例 。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种,数据集地址:
推荐阅读
- 红茶能泡多久,红茶包装袋保质期
- 椎动脉硬化怎么办?
- 红茶金骏眉礼盒,金骏眉红茶泡法水温
- 什么是野生古树红茶,野生古树红茶存放
- 科学变美的100个基本|网红必读“教材”《科学变美的100个基本》,职场小白也用得上
- 无代码开发平台功能对比
- 适合新手!7款常用短视频制作软件,0基础也能剪出好片子
- 本地新项目如何推送到gitlab仓库
- 白茶|办公室泡茶,记住“3个技巧”就够了,新手可学,老手也受用
- hr|HR:“我们不招三无学生,再优秀也不要”,这番话打醒了多少人?