AI化身诊断胃癌小能手,模型敏感性高达近100%( 二 )


AI化身诊断胃癌小能手,模型敏感性高达近100%文章插图
对数字病理切片进行放大、染色操作
2、12位病理学家按标准操作程序对切片进行标注
研究人员开发了一个基于iPad的标注系统 , 并向12位参与模型训练的病理学家提供数据收集和标注的标准操作程序(SOP) 。
具体来说 , 研究人员以第四版《消化系统肿瘤WHO分类》中的论述作为标准 , 训练过程中 , 12位病理学家用Apple Pencil圈出数字病理切片中显示为“恶性(malignant)”、“良性(benign)”、“图像质量低(poor quality)”和“可忽略(ignore)”的区域 , 并对这些部位进行相应标注 。
在之后的训练过程中 , 被标注为“恶性”的区域将被认为是高度上皮瘤变和胃癌病灶 , 这两种病变均需进行手术治疗;被标注为“图像质量低”和“可忽略”的区域将被认为是人体扫描质量低和难以诊断的部位 。
3、模型采用语义分割方法 , 提供更丰富的预测细节
基于DeepLab v3架构的卷积神经网络模型采用二进制图像分割方法 , 以像素级精度进行癌症检测 。
模型训练过程中 , 数字病理切片及相应的注释以20倍的放大率被分割为320*320的像素块 , 随后被输入到模型中 。
据悉 , 像素块被输入模型时没有特定的方向 , 模型会对输入的病理切片进行90、180、270度的随机旋转和反转 , 使其保持相同的方向 。
为了提高模型在判断来自不同医院、不同扫描设备的数字病理切片时的稳健性 , 研究人员还对像素块进行进一步处理:对像素块进行高斯模糊、运动模糊、颜色值抖动(亮度由0.0调为0.2 , 饱和度由0.0调为0.25 , 对比度由0.0调为0.2 , 色度由0.0调为0.04) 。
在模型“诊断”像素块的过程中 , 像素级的预测结果是通过排序所有像素级预测的概率得到的 。 模型采用频率最高的1000个预测结果 , 并用平均值表示对病理切片的预测 。
根据论文 , 相比于常用的图像块分类(patch classification)和滑动窗口( sliding windows) , 模型采用的方法在像素级上提供了更多预测细节 。
三、运行:敏感性达到0.996 , 平均特异性达到0.806模型训练完毕后 , 研究人员将其部署在中国人民解放军总医院中 , 进行为期3个月的试运行(2017年6月~8月) 。 训练期间 , 模型共对来自1814名患者的3212个日常胃部病理切片进行诊断 。
据了解 , 1814名患者中有1101名男性 , 平均年龄为54.12岁;有713名女性 , 平均年龄为54.66岁 。 3212个日常胃部病理切片中 , 有154个外科标本数字病理切片 , 1660个活体组织数字病理切片 。
模型试运行过程中 , 胃部病理切片按照每两周为一时间段分组 , 三个月内共有6个连续的时间段 。 为了测试模型对不同扫描仪处理的病理切片的处理性能 , 研究人员将获得的病理切片在三个扫描仪上进行处理 , 得到一个数据集 。
试运行结果显示 , 模型的曲线下面积达到了0.986 , 其准确性达到0.873、敏感性达到0.996、特异性达到0.843 , 标准差为0.018 。
在机器学习中 , 敏感性又称真阳性率 , 即AI模型对疾病的敏感程度 , 敏感性越高 , 漏诊概率越低;特异性又称真阴性率 , 即AI模型判断出良性患者或健康人的能力 , 特异性越高 , 确诊概率越高 。
AI化身诊断胃癌小能手,模型敏感性高达近100%文章插图
模型在不同时间段的试运行结果
研究人员比较了模型对三台不同扫描仪产生的病理切片的预测结果 , 结果显示 , 模型对训练时使用的KFBio KF-PRO-005扫描仪产生的病理切片预测结果最为准确 , 对另外两台数字扫描仪产生的病理切片的预测效果准确性略有下降 。
具体来说 , 模型预测Ventana DP200扫描仪产生的数字病理切片时 , 曲线下面积为0.004;预测Hamamatsu NanoZoomer S360扫描仪产生的数字病理切片时 , 曲线下面积为0.013 。


推荐阅读