ai算法|62个AI算法被指存在重大问题，都不具有新冠临床诊断价值 ai算法|新冠|算法|新冠肺炎|机

2020 年，新冠肺炎肆虐全球。为了能协助医生快速而精确地筛查潜在患者，各国的计算机科学家们发布了上千种机器学习算法，并声称这些算法能根据胸部 X 光片、CT 图像诊断或预测新冠肺炎。
然而，近日由剑桥大学领衔的一项最新研究却发现，这些算法存在着算法偏见和不可重复性等重大问题，并不具有临床价值。
当地时间 3 月 15 日，这篇名为 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 的论文发表于自然子刊《自然机器智能》（Nature Machine Intelligence）上。

文章插图

（来源：Nature Machine Intelligence）
这项由剑桥大学科学家们领导完成的研究，涵盖了从 2020 年 1 月 1 日到同年 10 月 3 日内所有科学论文和预印本提到的相关机器学习算法。同一时间段内，在 BioRxiv、medRxiv 和 arxiv 上刊登的所有手稿以及 EMBASE 和 MEDLINE 的所有条目也被纳入了研究范围。
在 2212 篇用机器算法诊断新冠肺炎的论文中，研究人员最终确定了 62 篇质量相对较高的论文进行讨论，其中 37 篇论文为深度学习算法， 23 篇论文为传统的机器学习算法， 2 篇为混合算法。
【ai算法|62个AI算法被指存在重大问题，都不具有新冠临床诊断价值】但遗憾的是，由于算法偏见和不可重复性等问题，没有一个具有潜在的临床应用价值。
论文第一作者、剑桥大学应用数学和理论物理系博士迈克尔（Michael Roberts）在接受采访时表示：“任何机器学习算法（的应用价值）都取决于训练它所使用的数据，特别是对于像新冠肺炎这样的新流行病来说，数据的多样性是至关重要的。 ”

文章插图

算法偏见和不可重复性
一般来说，算法偏见是指算法在数据集构建、目标制定与特征选取、数据标注等环节中产生的信息偏差，导致算法失去公平和准确性。在这项研究中，剑桥大学人员使用 “预测性算法的偏见风险评估工具”（PROBAST），从参与者、预测因素、结论和分析等四个方面系统性地评估了 62 个算法的偏见性风险。结果发现，有 55 个算法在至少一个方面有较高的算法偏见。
拿参与者举例，研究人员认为从公共数据集里获得的胸部 X 光片和 CT 影像具有选择性偏见，因为无法确认患者是否真的新冠肺炎呈阳性。又比如，相当一部分算法采用了儿童的相关影像作为 “非新冠肺炎” 对照组。事实上相比于成人，儿童感染新冠肺炎的几率要小得多。因此这种设计上的偏差会让算法产生很大的偏见。
除了算法偏见以外，算法的性能，也就是预测结果的可重复性，也是剑桥大学在这项研究中关注的重点之一。一般来说有两种方法来验证算法的性能，即内部验证和外部验证。内部验证是指测试数据与开发数据属于相同来源；外部验证是指测试数据属于不同来源。研究人员发现，在 62 篇论文中，有 48 篇只考虑了内部验证，有 13 篇使用了外部测试数据集（其中 12 篇使用了真正的外部测试数据集， 1 篇使用了与训练算法完全相同的数据来进行测试）。
对此，论文作者剑桥大学医学院博士路德（James Rudd）指出：“在新冠疫情初期，人们对信息的渴求是如此强烈，以至于一些论文无疑是仓促出版的。但是，如果你的算法只是基于一家医院的数据之上的话，那么它很可能不适用于另一个城市的某家医院。这些数据需要多样性，最好是国际化的。否则，当你的机器学习算法被更广泛地测试时肯定是要失败的。 ”
在这篇论文中，研究人员特别指出了 “科学怪人数据集”（Frankenstein datasets）的问题。 “科学怪人数据集” 是指从不同的数据集合并而成并重新命名分布的数据集，这样的数据集涉及到复杂的数据来源重复问题。例如，训练某算法的数据集集合了 N 个子集而成，但算法开发人员没有意识到其中一个子集还包含了其他子集的成分。这种对数据集的重新打包虽然实用，但会不可避免地导致算法在相同或重叠的数据集上进行训练，进而出现问题。

文章插图

图 | 用于模型测试的图像数量
除了算法偏见和预测结果的不可重复性之外，这些论文的另一个普遍问题是缺乏放射科医生和临床医生的参与。罗伯茨认为：“不论你是使用机器学习来预测天气或研究疾病如何发展，确保不同领域的专家一起参与并保持沟通是非常重要的，这样才能专注于研究正确的问题。 ”
5 点建议
毫无疑问，机器学习算法在医疗方面有着巨大潜力和广阔的市场前景。在过去的一年间，全球范围内的算法开发人员也为抗击新冠肺炎做出了巨大的努力。
出于严谨的治学态度，剑桥大学研究人员对 2020 年相关机器算法文献的系统性问题给出了 5 点建议：
（1）用于算法开发的数据使用和常见陷阱；
（2）评估被训练算法；
（3）预测模型的可重复性；
（4）手稿中的文献；
（5）同行评议过程。
其中，他们尤其强调需要谨慎使用公共数据库。由于数据来源和 “科学怪人数据集” 的原因，公共数据库会导致高风险的算法偏见。他们认为，算法开发人员应该着眼于广泛采用不同人群的统计数据，这是一个经常被忽视但却非常重要的偏见性来源。除此之外，外部数据的检验也必不可少，任何用于诊断或预测的模型都必须足够稳健，以便为目标人群的任意样本得出可靠结果。
论文还指出，清楚地认识到新冠肺炎检测相关的人工智能算法与明确的临床需求之间需求关系是技术转化的关键。因此，开发人工智能算法需要临床专业知识和计算机知识的互补，同时也需要高质量的医疗数据。
尽管研究人员在新冠肺炎 AI 模型中发现了缺陷，但研究人员表示，通过一些关键的修改，机器学习可以成为抗击这种流行病的强大工具。在未来的临床场景中，被改进的算法可以更好地被验证。

ai算法|62个AI算法被指存在重大问题，都不具有新冠临床诊断价值

推荐阅读

油脂分泌旺盛吃什么药

北斗观察者|上百名科学家遇难，总师因吸烟侥幸逃生，160吨洲际导弹意外爆炸

广东|粤规上工业增加值连续四个月正增长增速创今年新高

京客网外观潮流时尚满足你的“颜值，索尼降噪蓝牙耳机WH-H910N

「电脑大咖」Win7怎么查看计算机的IP地址、子网掩码和默认网关？

东西掉到缝隙里怎么办东西掉到缝隙里怎么办小妙招

新华网|军营集体婚礼见证幸福爱情

隔夜的玫瑰花茶可以干嘛,玫瑰花茶的作用哪些

中国出版传媒商报|“新知文库”如何短期热卖4000套？

【逗得掉渣渣】妹子，镜头在这里呢，搞笑gif段子：嗨

塔罗师宓一■塔罗牌占卜：抽张牌占卜你会嫁给谁？

中新网|飓风“德尔塔”致美国至少4人死亡数十万人断电

一加Nord|一加Nord欧洲发布全新配色 90Hz屏幕

红茶的起源故事,中国红茶茶路

扬洛去旅行|长135公里却耗资148亿，一公里造价超1亿，广东“最贵”的高速

俄罗斯为何是仅次于美国的世界第二大移民目的地国家

今日最奇葩|陈卓璇打给好朋友，看到徐艺洋，意料之外，希林娜依高打给欧阳娜娜

新华网■美国拒绝向英国交出涉交通肇事的美外交官夫人

戴维斯|伤病困扰下！湖人夺冠之路阻碍重重

穿搭|今夏男生流行“衬衫配短裤”，休闲舒适很清爽，谁穿谁帅气