机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用( 九 )


机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(8)
其中 , E 为字嵌入矩阵 。 G_h 将 h_t 解码到输出空间 。
注意力机制动态计算一个权重向量来提取支持单词预测的部分图像特征 , 该特征被解释为一个明确网络捕捉视觉信息位置的注意力图 。 注意力是支持网络视觉解释能力的主要部分 。 作者提出了辅助注意力锐化(Auxiliary Attention Sharpening , AAS)模块 , 以提高注意力机制的学习效果(见图 2 描述) 。 与将直接监督放在权重向量 a_t 上的处理方式不同 , 作者提出利用全局平均池化的隐含类特异性本地化属性来解决这个问题 , 以支持图像 - 语言的对齐处理 。 利用下式计算 z_t:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(9)
其中 , W_att 和 W_h 为学习嵌入矩阵 。 C(I)表示由图像模型生成的维度为 512×(14·14)的卷积特征图 。 c 表示通过 w^c 嵌入得到的 196 维的卷积特征 。
经典注意力机制在 LSTM 里面隐性地学习 w^c 。 而 AAS 增加了一个额外的监督来显式学习 , 以提供更有效的注意力模型训练 , 具体可见图 2 。 图 3 给出了经典方法和本文所提出方法的定性对比结果 。
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

图 3. 经典方法(中间)和本文方法(右边)生成的注意力图 。 本文方法能够在关键信息区域(尿道)中产生更多的焦点注意力
3.2.3 网络训练
CNN 提供一个编码的图像特征 F(I)作为 LSTM 输入 x_0 , 然后用一个特殊的 START token 作为 x_1 来告知预测过程开始 。 生成有效的梯度 F(I)是图像模型优化的关键 。
一份完整的医学诊断报告会对图像中的多种症状进行全面的描述 , 然后会具体针对一种或多种类型疾病的给出专门的诊断结论 。 例如 , 放射学图像包括多个疾病标签 , 每个症状具体描述一种类型的图像(症状)特征 。 有效地利用不同描述中的语义信息对通过 LSTM 生成有效的梯度 F(I)至关重要 。
在本文方法中 , 专门令一个 LSTM 从特定的描述中鉴别信息 。 所有的描述模型都共享 LSTM 。 这样一来 , 每个图像特征描述模型就成为了一个生成完整报告的函数 , 将该函数定义为 K 。 在训练阶段 , 给定一个包含 B 对图像和报告的小批量 , 将小批量发送到图像模型后对每个样本进行内部复制 , 得到一个 K×B 大小的小批量作为 LSTM 的输入 。 LSTM 的输入和输出分别定义为:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(10)
其中 , W_F 表示学习的图像特征嵌入矩阵 , S(e)表示第 e 个图像特征类型的独热表示 。 使用 (x_1)^e 通知 LSTM 目标任务的开始 。 在后向传播阶段 , 将全部复制的梯度 F(I) 融合起来 。
整个模型包含了三组参数:图像模型 D 的参数θ_D、语言模型 L 的参数θ_L 和 AAS 模块 M 的参数θ_M 。 MDNet 的完整优化问题如下:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(11)
其中 , 表示训练三元组 。 可以直接使用梯度下降算法求解θ_M 和θ_L 。 但更新θ_D 需要同时依赖于两个模块的梯度 。 本文提出一种反向传播机制 , 允许两个模块的复合梯度相互适应 。 基于递归生成网络和多层感知器的混合体来计算梯度 , θ_D 的更新如下:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图
(12)
3.2.4 实验分析
本文实验使用的数据库为膀胱癌影像诊断报告数据库(The bladder cancer image and diagnostic report dataset , BCIDR) 。 该数据库中的图像采用 20 倍物镜获取 , 从 32 例有乳头状尿路上皮肿瘤风险的患者的膀胱组织中提取苏木精和伊红(H&E)染色切片 , 拍摄全幻灯片图像 。 从这些载玻片中 , 随机抽取 1000 张靠近尿路上皮肿瘤的 500x500 RGB 图像(每张幻灯片生成的图像数量略有不同) 。 使用一个网络界面来显示每个图像(没有病人的诊断信息) , 然后请病理学家为每个图像提供了一段描述观察结果的文字 , 以明确五种类型的细胞外观特征 , 即核多形性状态(the state of nuclear pleomorphism)、细胞拥挤状态(cell crowding)、细胞极性(cell polarity)、有丝分裂(mitosis) , 突出核(prominence of nucleoli) 。 病理学家给出的诊断结论分为四类:即正常、低恶性潜能乳头状尿路上皮肿瘤(papillary urothelial neoplasm of low malignant potential , PUNLMP)/ 低度恶性肿瘤、高度恶性肿瘤和信息不足 。 在这个过程之后 , 四个医生(非膀胱癌专家)用他们自己的语言撰写了另外四个文字描述 , 但是他们在撰写过程中参考了病理学家的描述以保证准确性 。 因此 , 每幅图像中总共有五篇描述报告 。 每份报告的长度在 30 到 59 个字之间 。 随机选取 20%(6/32)的患者数据(包括 200 张图像)作为测试数据 , 其余 80% 的患者数据(包括 800 张图像)用于训练和交叉验证 。


推荐阅读