机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用( 十 )


作者选择经典的图像字幕方案(image captioning scheme)作为基线对比方法[9] , 该方法首先训练 CNN 来表示图像 , 然后训练 LSTM 生成描述 。 此外 , 实验中使用 GoogLeNet 而不是它最初使用的 VGG , 因为前者在 BCIDR 上的性能更好 。 作者单独训练了 MDNet 中的图像模型 , 记做 EcNet , 且训练了一个小型的 EcNet 用于实验(深度 38 , 宽 8 , 包括 2.3M 参数) 。 实验中用于对比的全部模型共享预训练 GoogleNet 和 EcNet 。 在训练 LSTM 时 , 作者测试了使用和未使用微调 CNNs 的情况 。
MDNet 本身是基于端到端的训练方式得到的 , 不过为了与基线方法进行对比 , 作者在消融实验中测试了两种使用基线策略训练 MDNet 的情况 。 在这两种情况下没有应用优化处理 , 因此与基线方法的差异是任务分离的 LSTM 和整合注意力模型 。
图 4 给出了生成报告的实验结果示例 。 使用本文提出的注意力模型计算得到了句子引导的注意力 , 其中每个注意力图对应一个预测单词 。 参考病理学家的观察结果 , 本文方法计算得到的注意力图能够集中关注于有效信息区域而避免引入更多的无效信息区域 。
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

图 4. 图像模型预测诊断报告(左上角) 。 语言模型关注每个预测单词的特定区域 , 最受关注的是尿路上皮肿瘤 , 它被用来诊断癌症的类型
表 1 给出了一个诊断报告生成实验示例 。 实验结果给出了常用的图像字幕评价指标得分 , 包括 BLEU(B)、METEOR(M)、Rouge-L(R)和 CIDEr(C) 。 诊断报告的语言结构比自然图像标题更具规则性 。 实验结果表明 , 标准 LSTM 可以捕捉到总体结构 , 从而得到与 MDNet 相似的度量分数 。 本文实验更关注的是训练得到的模型是否准确地表达了病理意义上的关键词 。 实验结果中还给出了从生成的报告句子中提取的预测诊断结论准确性(diagnostic conclusion accuracy , DCA) 。 由实验结果可知 , MDNet 效果远优于其它基线方法 。 此外 , 实验结果还表明采用微调预训练方法 , 例如 EcNet 和 GoogleNet , 能够获得更好的效果 , 但同时会提升模型的不稳定性(标准差较大) 。
表 1. 生成描述质量和 DCA 评分的定量评价 。 P、 F 和 J 分别表示是否使用预先训练的 CNN、在训练 LSTM 时是否微调预训练 CNN , 以及是否使用 MDNet 。 第 5 行和第 6 行为消融实验结果 , GN 和 EN 表示 GoolgeNet 和 EcNet
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

3.2.5 文章小结
本文提出了一种非属性深度学习模型:MDNet , 用以建立医学图像和医学诊断报告之间的多模态映射关系 。 MDNet 为可解释深度学习技术在医疗图像诊断中应用提供了一个新的视角:生成诊断报告和与报告对应的网络关注(Network Attention) , 借助于注意力机制使得网络诊断和决策过程具有语义和视觉上的可解释性 。
基于本文的工作 , 作者提出了如下的研究方向:建立大规模病理图像报告数据库、实现对小生物标记物定位的精细关注、将改进后的 MDNet 应用于全幻灯片诊断等 。
四、小结
本文关注的是可解释深度学习技术在医疗图像诊断中的应用 。 很多深度学习技术在实际应用中都获得了较好的效果 , 例如图像识别、文本识别、语音识别等 。 这些技术得以推广应用的领域主要是智能客服、翻译、视频监控、搜索、推荐系统等等 , 这些领域共通的特点是 “对模型 / 算法的可解释性要求不高” 并且“容错率高” 。 以智能客服应用为例 , 可以利用深度学习技术提高所生成问答语句的准确度 , 且生成错误的回答语句并不会对用户有直接的危险 。 但是如何生成的这些文本、不同参数与文本 / 语句 / 字符的关系究竟是什么 , 这些问题并没有答案 , 在实际应用即使没有明确这些答案也不影响利用深度学习技术改进智能客服的水平 , 人们也不会因为没有明确答案就否定智能客服给出的结论 。 但是在医学领域 , 模型 / 算法的可解释性要求就非常高了 。 试想 , 你会根据一条不知道什么原因、不知道根据什么判断得出的结论去治疗疾病么?你会相信一条不知道如何解释的病情诊断意见么?


推荐阅读