机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用( 八 )


3.2.1 图像模型
残差网络 ResNet 能够实现网络内部的信息流动 。 每一个跳连接(Skip-connected)的计算单元称为剩余块 。 在一个有 L 个残差块的 ResNet 中 , 第 l 个残差块的前向输出 y_L 和损失 L 的梯度即其输入 y_l 的定义分别为:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(1)
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(2)
其中 , F_m 由连续批归一化、整流线性单元(ReLU)和卷积模块组成 。
残差块中的一个跳转连接提供了两条信息流路径 , 因此随着网络的深入 , 网络中总的路径数目呈指数级增长 。 这种指数集成(Exponential Ensembles)提高了网络性能 。 ResNet 中连接卷积层的分类模块包括全局平均池化层(a Global Average Pooling Layer)和全连接层 。 这两个层的数学描述如下:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(3)
其中 , p^c 表示类别 c 的概率输出 , (i, j)表示空间坐标 , w^c 表示应用到 p^c 上的全连接层权重矩阵的第 c 列 。 将公式(1)插入到公式(3)中 , p^c 为加和集成输入的加权平均:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(4)
作者认为 , 在这种情况下 , 在分类模块中使用单一的加权函数不是最优的 。 这是因为所有合集的输出都共享分类器 , 以至于其单个特征的重要性被削弱 。 为了解决这个问题 , 作者建议将集合输出解耦 , 并对它们分别应用分类器:
【机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用】机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(5)
与公式 (4) 相比 , 公式(5)为每个集合输出分配了单独的权重(w_1)^c 和(w_L)^c , 这使得分类模块能够独立决定来自不同残差块的信息重要性 。 作者对 ResNet 架构进行 "重新设计" 来实现上述思想 , 即采用一种新的方式来跳转连接残差块 , 定义如下 。
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(6)
其中 , ?为连接操作 。 将这种跳转连接方案定义为集合连接(Ensemble Connection) 。 它允许残差块的输出直接并行地流经并联的特征图到分类层 , 这样分类模块给所有网络集合输出分配权重 , 并将它们映射到标签空间 。 由图 2 可以看出 , 这种设计也保证了信息流的畅通无阻 , 克服了梯度消失效应 。
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

图 2. MDNet 的整体说明 , 以膀胱图像及其诊断报告为例 。 图像模型生成一个图像特征 , 以任务元组和由辅助注意力锐化(Auxiliary Attention Sharpening , AAS)模块计算的 Conv 特征嵌入(用于注意力模型)的形式传递给 LSTM 。 LSTM 根据指定的图像特征类型执行预测任务
3.2.2 语言模型
在语言建模方面 , 使用 LSTM 通过最大化句子上的联合概率来建模诊断报告:
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

(7)
其中 , 是句子词(编码为独热向量) 。 LSTM 参数θ_L 用于计算几种 LSTM 内部状态 。 通过上下文向量 z_t 将 "软" 注意力机制整合到 LSTM 中 , 以捕捉局部的视觉信息 。 为了进行预测 , LSTM 将上一时间步 x_(t-1)的输出以及隐藏状态 h_(t-1)和 z_t 作为输入 , 并计算下一个词 x_t 的概率 , 如下所示:


推荐阅读