科学批评者称谷歌乳腺癌预测AI研究如果不透明就没有用处


早在1月份 , 谷歌旗下专注于健康相关研究、临床工具和医疗服务合作的分支Google Health就发布了一个在9万多张乳房X光照片上训练的人工智能模型 , 该公司称其取得了比人类放射科医生更好的效果 。 谷歌宣称 , 与之前的工作相比 , 该算法可以识别出更多的假阴性 , 即那种看起来正常但含有乳腺癌的图像 , 但一些临床医生、数据科学家和工程师对这一说法表示质疑 。
在今天发表在《自然》杂志上的一篇反驳文章中 , 隶属于麦吉尔大学、纽约市立大学(CUNY)、哈佛大学和斯坦福大学的超过19位共同作者表示 , 谷歌的研究缺乏详细的方法和代码 , 损害了其科学价值 。 一般来说 , 科学都存在可重复性问题 , 2016年对1500名科学家进行的一项调查报告显示 , 其中70%的科学家至少尝试过复制其他科学家的实验 , 但失败了 。
在人工智能领域 , 这个问题尤为严重 。 在2019年的ICML大会上 , 有30%的作者未能在会议开始前将自己的代码与论文一起提交 。 研究经常提供基准结果来代替源代码 , 当基准的彻底性受到质疑时 , 就会出现问题 。 最近的一份报告发现 , 自然语言处理模型给出的60%到70%的答案都嵌入了基准训练集的某个地方 , 这表明模型往往只是在记忆答案 。
他们表示 , 谷歌的乳腺癌模型研究缺乏细节 , 包括对模型开发以及所使用的数据处理和训练管道的描述 。 谷歌省略了模型架构的几个超参数的定义 , 也没有披露用于增强模型训练的数据集的变量 。 这可能会显著影响其性能 , Nature的共同作者声称 , 例如 , 谷歌使用的其中一个数据增强有可能导致同一患者的多个实例 , 从而使最终结果出现偏差 。
谷歌方面表示 , 用于训练该模型的代码对内部工具、基础设施和硬件有许多依赖性 , 使其发布不可行 。 该公司在决定不发布这两个训练数据集时 , 还提到了这两个训练数据集的专有性和患者健康数据的敏感性 。 但Nature的共同作者指出 , 原始数据的共享在生物医学文献中已经变得越来越普遍 , 从2000年代初的不足1%增加到现在的20% , 而且模型预测和数据标签本来可以在不泄露个人信息的情况下发布 。
【科学批评者称谷歌乳腺癌预测AI研究如果不透明就没有用处】
科学批评者称谷歌乳腺癌预测AI研究如果不透明就没有用处
本文插图


    推荐阅读