决策树怎样对连续性特征进行分段
https://people.eecs.berkeley.edu/~russell/classes/cs194/f11/lectures/CS194%20Fall%202011%20Lecture%2008.pdf并不用考虑每一个example, 对第i个feature,首先以feature i 为key sort(feature_i, label_i)然后将label 有变动的地方作为可能的划分点,比如 label 为 [1,1,0,0,0,1]只需要考虑两个地方 即 [1,1]后面 和[1,1,0,0,0]后面。对于每一个可能的划分点 可以求information gain 让他最大,在求information gain 的时候可以用entropy 也可以用gini。找到一个中文的 供参考:机器学习经典算法详解及Python实现
■网友
问题抽象假设训练样本集合D中有n个样本,考察对连续属性a的最佳分段点/划分点。若属性a在这n个样本中有m个不同的取值(m\u0026lt;=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。选择过程接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。
■网友
假设我把这0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我们就有5个离散化的范围了,对每个分类点计算信息增益,(也就是一共计算五次),取最大的一个作为分段点
■网友
按gini系数或者entropy,和离散变量是一样的。
推荐阅读
- 聪明人养花,这3种“花”怎样也要养一盆,每年能省不少医药费
- 互联网怎样解决“家政服务上门速度慢”的问题
- 怎样看待从1月8号起,QQ钱包开始提现收费
- 银行it人怎样转型
- 汽车|冬天怎样让车内温度快速升高?座椅加热的最佳使用方式二,外循环的作用总结
- 怎样进入通信行业
- 怎样评价扶他柠檬茶的小说《云养汉》的结尾
- 怎样成为一名合格的Python程序员?
- 怎样评价华为、诺基亚、中兴中标中国移动高端路由交换设备扩容集采
- 怎样评价类似前橙会、百老汇、南极圈这样类型的离职帮抱团,对企业的积极意义和消极意义