造就预测自杀概率的算法这么多,为什么科学家青睐这一种?


北京联盟_本文原题:预测自杀概率的算法这么多 , 为什么科学家青睐这一种?
造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
本文插图

“随机森林”是数据科学领域最受欢迎的预测算法之一 , 20世纪90年代由统计学家利奥·布雷曼(Leo Breiman)提出 , 因其简单性而备受推崇 。 虽然随机森林有时并不是最准确的预测方法 , 但它在机器学习领域拥有特殊地位 , 因为即便是数据科学方面的新手 , 也能运用和理解这种强大的算法 。
在2017年一项关于自杀预测的研究中 , 就用到了随机森林 。 该研究由范德堡大学的生物医学-信息学专家科林·沃尔什(Colin Walsh)以及佛罗里达州立大学的两位心理学家杰西卡·里贝罗(Jessica Ribeiro)和约瑟夫·富兰克林(Joseph Franklin)开展 , 他们想看看能不能利用5000名自残病人的数据 , 来预测这些病人自杀的可能性 。 这是一项回顾性研究(译注:指以现在为结果 , 回溯到过去的研究) 。 遗憾的是 , 研究还没有结束 , 已经有近2000名患者自杀身亡 。
总的来看 , 研究人员可以利用1300多个不同的特征来进行预测 , 包括年龄、性别以及个人病历的各个方面 。 如果随机森林作出的预测被证明是准确的 , 那么从理论上来说 , 这种算法以后也可以用于识别自杀风险高的人 , 为他们提供有针对性的治疗 。 这会是一件善事 。
如今 , 预测算法无处不在 。 在当今这个数据丰富、算力强大且便宜的时代 , 数据科学家越来越多地利用个人、企业和市场的信息(不管是自愿提供还是偷偷获得)来预测未来 。 算法不仅可以预测我们想看哪部电影 , 哪些股票的价格会上涨 , 还能预测我们最有可能对社交媒体上的哪些广告作出反应 。 人工智能(AI)工具也往往依靠预测算法来做出决策 , 比如汽车自动驾驶系统 。
造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
本文插图

预测算法最重要、最个性化的应用也许是在医疗领域 。 算法驱动的AI或许会彻底改变我们诊断和治疗疾病的方式 , 从抑郁症、流感 , 到癌症、肺衰竭 , 无一例外 。 因此 , 预测算法虽然看似晦涩深奥 , 但它值得我们去认识和理解 。 实际上 , 很多情况下 , 它们理解起来还是比较容易的 。
理解随机森林的第一步是理解决策树 。 毕竟 , 森林是由一棵棵树组成的 。
决策树是基于这样一个想法:我们可以通过提出一系列是非问题来作出预测 。 例如 , 就自杀预测而言 , 假设我们只有三条信息可用:是否被诊断为抑郁症 , 是否被诊断为躁郁症 , 过去一年里是否到急诊室就诊三次以上 。
决策树的一个优点在于 , 不同于其他常见的预测方法(比如统计回归) , 决策树模拟了人类作出猜测的方式 。 这使它们相对更容易理解 。 考虑到隐私问题 , 研究人员不会公布真实数据 , 以下是假设的一棵决策树 , 利用我们掌握的上述三条信息来预测一个人是否会自杀 。
造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
本文插图
【造就预测自杀概率的算法这么多,为什么科学家青睐这一种?】

决策树的分叉点旨在最大程度地减少不正确的猜测 。 虽然人也有可能计算出正确的分叉点 , 但数据科学家几乎总是让计算机来做 。
决策树的缺点在于 , 想要作出正确的预测 , 不能单靠一棵决策树 。 你需要生成很多不同的决策树 , 然后取所有这些决策树的预测平均值 。 这就是复杂之处:如果只有一个数据集(上述例子中即为抑郁症/躁郁症/急诊室就诊) , 如何生成不同的决策树?如果使用同样的数据 , 每棵决策树难道不是相同的吗?
这就把我们引向了对现代机器学习的一个重要认识 。 一个数据集其实可以通过重采样 , 变成很多不同的数据集 。 重采样是指随机排除一些数据 , 从而创造出新的数据集 。


推荐阅读