造就预测自杀概率的算法这么多,为什么科学家青睐这一种?
北京联盟_本文原题:预测自杀概率的算法这么多 , 为什么科学家青睐这一种?
本文插图
“随机森林”是数据科学领域最受欢迎的预测算法之一 , 20世纪90年代由统计学家利奥·布雷曼(Leo Breiman)提出 , 因其简单性而备受推崇 。 虽然随机森林有时并不是最准确的预测方法 , 但它在机器学习领域拥有特殊地位 , 因为即便是数据科学方面的新手 , 也能运用和理解这种强大的算法 。
在2017年一项关于自杀预测的研究中 , 就用到了随机森林 。 该研究由范德堡大学的生物医学-信息学专家科林·沃尔什(Colin Walsh)以及佛罗里达州立大学的两位心理学家杰西卡·里贝罗(Jessica Ribeiro)和约瑟夫·富兰克林(Joseph Franklin)开展 , 他们想看看能不能利用5000名自残病人的数据 , 来预测这些病人自杀的可能性 。 这是一项回顾性研究(译注:指以现在为结果 , 回溯到过去的研究) 。 遗憾的是 , 研究还没有结束 , 已经有近2000名患者自杀身亡 。
总的来看 , 研究人员可以利用1300多个不同的特征来进行预测 , 包括年龄、性别以及个人病历的各个方面 。 如果随机森林作出的预测被证明是准确的 , 那么从理论上来说 , 这种算法以后也可以用于识别自杀风险高的人 , 为他们提供有针对性的治疗 。 这会是一件善事 。
如今 , 预测算法无处不在 。 在当今这个数据丰富、算力强大且便宜的时代 , 数据科学家越来越多地利用个人、企业和市场的信息(不管是自愿提供还是偷偷获得)来预测未来 。 算法不仅可以预测我们想看哪部电影 , 哪些股票的价格会上涨 , 还能预测我们最有可能对社交媒体上的哪些广告作出反应 。 人工智能(AI)工具也往往依靠预测算法来做出决策 , 比如汽车自动驾驶系统 。
本文插图
预测算法最重要、最个性化的应用也许是在医疗领域 。 算法驱动的AI或许会彻底改变我们诊断和治疗疾病的方式 , 从抑郁症、流感 , 到癌症、肺衰竭 , 无一例外 。 因此 , 预测算法虽然看似晦涩深奥 , 但它值得我们去认识和理解 。 实际上 , 很多情况下 , 它们理解起来还是比较容易的 。
理解随机森林的第一步是理解决策树 。 毕竟 , 森林是由一棵棵树组成的 。
决策树是基于这样一个想法:我们可以通过提出一系列是非问题来作出预测 。 例如 , 就自杀预测而言 , 假设我们只有三条信息可用:是否被诊断为抑郁症 , 是否被诊断为躁郁症 , 过去一年里是否到急诊室就诊三次以上 。
决策树的一个优点在于 , 不同于其他常见的预测方法(比如统计回归) , 决策树模拟了人类作出猜测的方式 。 这使它们相对更容易理解 。 考虑到隐私问题 , 研究人员不会公布真实数据 , 以下是假设的一棵决策树 , 利用我们掌握的上述三条信息来预测一个人是否会自杀 。
本文插图
【造就预测自杀概率的算法这么多,为什么科学家青睐这一种?】
决策树的分叉点旨在最大程度地减少不正确的猜测 。 虽然人也有可能计算出正确的分叉点 , 但数据科学家几乎总是让计算机来做 。
决策树的缺点在于 , 想要作出正确的预测 , 不能单靠一棵决策树 。 你需要生成很多不同的决策树 , 然后取所有这些决策树的预测平均值 。 这就是复杂之处:如果只有一个数据集(上述例子中即为抑郁症/躁郁症/急诊室就诊) , 如何生成不同的决策树?如果使用同样的数据 , 每棵决策树难道不是相同的吗?
这就把我们引向了对现代机器学习的一个重要认识 。 一个数据集其实可以通过重采样 , 变成很多不同的数据集 。 重采样是指随机排除一些数据 , 从而创造出新的数据集 。
推荐阅读
- mg|大脚G将上新!新款G500 4×42预测渲染图曝光
- 都江堰|都江堰旅游攻略:四川有一堰,造就天府国
- 吴晨光|中大管院云讲堂(四) | 吴晨光教授:旅游需求分析及预测前沿
- 佛佛语录|黄半仙预测:肖鼠人:特别是72年的中晚年,劝你最好看一眼!
- 39健康网|晚上泡脚,是养生还是“慢性自杀”?医生:5种人泡脚百害无一利
- 谭老师地理工作室|【考向预测】?高中地理常见10种地貌总结,一文带你全掌握!高考常见地貌形成过程动图解说,高考地理地貌主题型试题专题训练!
- 日有所学伴成长|再读《挪威的森林》,发现了白富美“初美”自杀背后的原因
- 赠人玫瑰6666|糖尿病人这6个习惯,等于慢性自杀!
- 李云龙|原著《亮剑》中,李云龙明明有逃生机会,但他选择了自杀
- 花树人|在《我的世界》中噩梦成真 滥用基因学造就出可怕的“植物人”