造就预测自杀概率的算法这么多,为什么科学家青睐这一种?( 三 )


我们用真实结果来做检验 。 如果该算法预测一个人的自杀概率为50%或更高 , 那么79%的情况下 , 此人确实会自杀 。 如果该算法预测自杀概率不到50% , 那么只有5%的情况下 , 会发生自杀行为 。
随机森林的一个优势在于 , 除了是非预测以外 , 它还提供了一个概率 。 假设随机森林预测一个人的自杀概率为45% , 另一个人为10% 。 对于这两个人 , 算法认为他们不会自杀的可能性更大 。 但决策者也许想制定一个计划 , 把算法认为自杀概率高于30%的所有人都作为目标对象 。
统计学家和计算机科学家开发了很多预测算法 , 随机森林只是其中之一 。 某些情况下 , 随机森林是最好用的 。 例如 , 在对自杀预测的研究中 , 随机森林的预测准确性大大高于更简单的回归算法 。 但在另外一些情况下 , 其他算法可能会给出更好的预测 。 最受欢迎的是支持向量机和神经网络 。 如果你有很多可能的预测指标 , 比如你想根据基因数据来预测某种疾病的遗传可能性 , 那么支持向量机非常有用 。 神经网络算法往往非常准确 , 但用起来极为耗时 。
造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
本文插图

遗憾的是 , 上述关于自杀预测的研究并非一种常态 。 眼下 , 算法最常用于定向广告和识别欺诈 , 而不是改善公共政策 。 不过 , 有些机构正尝试将算法用于公益事业 。 例如 , DataKind为纽约市约翰杰伊刑事司法学院(John Jay College of Criminal Justice)开发了若干预测模型 , 帮助他们识别面临辍学风险的学生 , 哪怕他们即将毕业 。 这些模型是在2017年开发的 , 它基于10多年的学生数据 , 将用于为辅助项目确定目标对象 , 帮助那些面临辍学风险的学生 。
这些数据模型也许看起来晦涩难懂 , 实际上并非如此 。 你如果稍有数学头脑 , 就会知道如何理解和运用算法 。 掌握这些工具的人越多 , 它们就越有可能去解决各种各样的社会问题 , 而不仅仅是用于商业目的 。
造就 | 剧院式的线下演讲平台 , 发现创造力


推荐阅读