造就预测自杀概率的算法这么多,为什么科学家青睐这一种?( 二 )


比方说 , 预测自杀可能性的研究人员有一个数据集 , 包含5000人的数据 。 为了通过重采样创造出“新”的数据集 , 研究人员会从5000人中随机选择一个人剔除 , 并将这个过程重复5000次 。 由此产生的数据集不同于源数据集 , 因为同一个人可以被选中不止一次 。 由于概率法则 , 任何特定的重采样数据集只会使用源数据集5000人之中的3200人左右 , 另外1800人不会被随机选中 。 有了重采样数据集 , 研究人员就可以生成新的决策树 , 它可能略微不同于利用源数据生成的决策树 。
造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
本文插图

如果随机重采样碰巧排除了罕见情况(也就是“异常值”) , 那么准确性就会提高;如果碰巧包含了所有的异常值 , 排除了一些更典型的情况 , 那么准确性就会降低 。 但重点在于 , 你生成的新决策树不止一棵 。 就“随机森林”而言 , 你生成了大量的新决策树 。 预测自杀可能性的研究人员生成了500棵不同的决策树 。 由于是计算机来完成所有工作 , 研究人员有时会生成数千乃至几百万棵决策树 。 通常来说 , 500棵决策树就够了 , 随机森林的准确性是有上限的 。
一旦随机森林生成 , 研究人员往往会取所有决策树的平均值 , 得到研究结果的一个概率 。 例如 , 一名40岁男性 , 收入为4万美元 , 有抑郁史 , 如果500棵决策树中的100棵预测他会自杀 , 那么研究人员可以说 , 拥有这些特征的人自杀概率为20% 。
为了理解重采样为什么重要 , 我们来看一个例子 。 假设你想根据年龄、性别和收入来预测普通人的身高 , 而职业篮球运动员勒布朗·詹姆斯(身高2.03米/男性/年薪3565万美元)和凯文·杜兰特(身高2.08米/男性/年薪2654万美元)不知怎么进入了你的100人样本 。 一棵决策树如果按照这些超级富有的篮球明星来预测身高 , 就可能作出错误的预测 , 认为年薪超过2500万美元的人都长得很高 。 而重采样能够确保 , 最终分析所包括的一些决策树排除了詹姆斯和杜兰特中的一人或者两人 , 从而提供更加准确的预测 。
我们还需要做另一件事 , 让随机森林真正体现出随机性 。
用重采样数据集生成的500棵决策树虽然各不相同 , 但差异并不是很大 , 因为每个重采样的大部分数据点都是一样的 。 这把我们引向了对随机森林的一个重要认识:如果限定了你(或者计算机)能够从任何分叉点选择的变量的数量 , 就可能得到全然不同的决策树 。
在关于自杀预测的研究中 , 研究人员有大约1300个变量可用来作出预测 。 在典型的决策树中 , 这1300个变量中的任何一个都可以用来生成决策树的分叉点 。 但随机森林的决策树却不是这样:可供计算机选择的变量只有一部分 , 而不是全部1300个 , 并且是随机选择 。
造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
本文插图

这种随机性使随机森林中的每棵决策树都是不同的 。 在对自杀预测的研究中 , 一些决策树可能包含了是否诊断为抑郁症的变量 , 而另一些决策树可能没有包含这种变量 。 用术语来说 , 我们已经让决策树“去相关” 。 接下来 , 再取这些去相关决策树的预测平均值(自杀预测研究中有500棵) , 即为随机森林的最终预测结果 。
从每棵决策树中剔除一些变量 , 使每棵决策树不那么准确 , 最终的预测反而更好 , 这是怎么回事呢?在预测身高的上述例子中 , 用收入来预测身高的所有决策树都会认为 , 高收入者长得极高 。 但如果身高变量从一些决策树中被随机排除 , 这些决策树对普通人身高的预测将会更加准确 。
一种好的自杀预测算法 , 应该具有两个特征:一是在某人不会自杀的情况下 , 很少预测此人会自杀;二是在某人会自杀的情况下 , 很少漏掉此人 。 范德堡大学和佛罗里达州立大学研究人员开发的随机森林算法 , 在这两个方面都表现得不错 。


推荐阅读