决策树怎样对连续性特征进行分段

https://people.eecs.berkeley.edu/~russell/classes/cs194/f11/lectures/CS194%20Fall%202011%20Lecture%2008.pdf并不用考虑每一个example, 对第i个feature,首先以feature i 为key sort(feature_i, label_i)然后将label 有变动的地方作为可能的划分点,比如 label 为 [1,1,0,0,0,1]只需要考虑两个地方 即 [1,1]后面 和[1,1,0,0,0]后面。对于每一个可能的划分点 可以求information gain 让他最大,在求information gain 的时候可以用entropy 也可以用gini。找到一个中文的 供参考:机器学习经典算法详解及Python实现
■网友
问题抽象假设训练样本集合D中有n个样本,考察对连续属性a的最佳分段点/划分点。若属性a在这n个样本中有m个不同的取值(m\u0026lt;=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。选择过程接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。
■网友
假设我把这0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我们就有5个离散化的范围了,对每个分类点计算信息增益,(也就是一共计算五次),取最大的一个作为分段点
■网友
按gini系数或者entropy,和离散变量是一样的。


    推荐阅读