造就预测自杀概率的算法这么多，为什么科学家青睐这一种？

北京联盟_本文原题：预测自杀概率的算法这么多，为什么科学家青睐这一种？

本文插图

“随机森林”是数据科学领域最受欢迎的预测算法之一， 20世纪90年代由统计学家利奥·布雷曼（Leo Breiman）提出，因其简单性而备受推崇。虽然随机森林有时并不是最准确的预测方法，但它在机器学习领域拥有特殊地位，因为即便是数据科学方面的新手，也能运用和理解这种强大的算法。
在2017年一项关于自杀预测的研究中，就用到了随机森林。该研究由范德堡大学的生物医学-信息学专家科林·沃尔什（Colin Walsh）以及佛罗里达州立大学的两位心理学家杰西卡·里贝罗（Jessica Ribeiro）和约瑟夫·富兰克林（Joseph Franklin）开展，他们想看看能不能利用5000名自残病人的数据，来预测这些病人自杀的可能性。这是一项回顾性研究（译注：指以现在为结果，回溯到过去的研究）。遗憾的是，研究还没有结束，已经有近2000名患者自杀身亡。
总的来看，研究人员可以利用1300多个不同的特征来进行预测，包括年龄、性别以及个人病历的各个方面。如果随机森林作出的预测被证明是准确的，那么从理论上来说，这种算法以后也可以用于识别自杀风险高的人，为他们提供有针对性的治疗。这会是一件善事。
如今，预测算法无处不在。在当今这个数据丰富、算力强大且便宜的时代，数据科学家越来越多地利用个人、企业和市场的信息（不管是自愿提供还是偷偷获得）来预测未来。算法不仅可以预测我们想看哪部电影，哪些股票的价格会上涨，还能预测我们最有可能对社交媒体上的哪些广告作出反应。人工智能（AI）工具也往往依靠预测算法来做出决策，比如汽车自动驾驶系统。

本文插图

预测算法最重要、最个性化的应用也许是在医疗领域。算法驱动的AI或许会彻底改变我们诊断和治疗疾病的方式，从抑郁症、流感，到癌症、肺衰竭，无一例外。因此，预测算法虽然看似晦涩深奥，但它值得我们去认识和理解。实际上，很多情况下，它们理解起来还是比较容易的。
理解随机森林的第一步是理解决策树。毕竟，森林是由一棵棵树组成的。
决策树是基于这样一个想法：我们可以通过提出一系列是非问题来作出预测。例如，就自杀预测而言，假设我们只有三条信息可用：是否被诊断为抑郁症，是否被诊断为躁郁症，过去一年里是否到急诊室就诊三次以上。
决策树的一个优点在于，不同于其他常见的预测方法（比如统计回归），决策树模拟了人类作出猜测的方式。这使它们相对更容易理解。考虑到隐私问题，研究人员不会公布真实数据，以下是假设的一棵决策树，利用我们掌握的上述三条信息来预测一个人是否会自杀。

本文插图
【造就预测自杀概率的算法这么多，为什么科学家青睐这一种？】

决策树的分叉点旨在最大程度地减少不正确的猜测。虽然人也有可能计算出正确的分叉点，但数据科学家几乎总是让计算机来做。
决策树的缺点在于，想要作出正确的预测，不能单靠一棵决策树。你需要生成很多不同的决策树，然后取所有这些决策树的预测平均值。这就是复杂之处：如果只有一个数据集（上述例子中即为抑郁症/躁郁症/急诊室就诊），如何生成不同的决策树？如果使用同样的数据，每棵决策树难道不是相同的吗？
这就把我们引向了对现代机器学习的一个重要认识。一个数据集其实可以通过重采样，变成很多不同的数据集。重采样是指随机排除一些数据，从而创造出新的数据集。

造就预测自杀概率的算法这么多，为什么科学家青睐这一种？

推荐阅读

「实战财经」疫情对国人消费习惯造成的三个深远影响

宜昌夷陵区邓村提速升级推进茶业跨越发展

翡翠手镯|翡翠手镯选对类型很重要，手镯的类型不同，适合的人群也不一样

微微带你笑|我已到深圳了，开心一笑：老婆

大自然的指南针有哪些？

行者车视觉修车师傅看到后：车都被你“养”坏了，“国人养车”三大怪现象

塞尔比|欧洲赛1-5惨败！丁俊晖止步8强，总战绩再次被塞尔比反超

直播吧|年薪150万欧，斯基拉：库姆布拉将与罗马签约4年

盛冬惊喜黄金早餐，腊肠炒饭香甜可口，元气满满，火热上线

直播吧|接班卡里乌斯？，外媒：贝西克塔斯有意罗马门将奥尔森

「重庆火锅」老干妈逗“鹅”冤

齐鲁东营资讯|东营区妇联2020“魅力东营”短视频大赛创作训练营暨“指尖上的妇女微家”小程序发布仪式举办

转母亲一千块，老公却扬言跟我离婚：远嫁的女人不独立，很苦

鸡与哪些生肖比较旺,最旺鸡的生肖是什么-

「隔壁老王说车」全球唯一双十佳豪华SUV，比奥迪Q5霸气10倍，仅售27万，今日上市

篮球小说排行榜完本经典之作 2020好看的篮球小说

爱辉科技|iPhone斩获单项第一！，到底谁拍照最好？DXO公开年度榜单

文汇|上海大科学设施群再添新成员

山东上半年空气质量反弹重污染天数同比增加3.8天

『运势』6月23号，运势走红，天赐福禄的3大生肖，赚钱更，发家致富