机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用( 二 )


本文插图

图 1. XAI 主要分类方法示例
1.1.1 模型特定的方法 vs 模型无关方法(Model Specific vs Model Agnostic)
模型特定的方法基于单个模型的参数进行解释 。 例如 , 基于图神经网络的可解释方法(Graph neural network explainer , GNNExplainer)主要针对 GNN 的参数进行解释 。 模型无关方法并不局限于特定的模型体系结构 。 这些方法不能直接访问内部模型权重或结构参数 , 主要适用于事后分析 。
1.1.2 全局方法 vs 局部方法(Global Methods vs Local Methods)
局部可解释性方法主要聚焦于模型的单个输出结果 , 一般通过设计能够解释特定预测或输出结果的原因的方法来实现 。 相反 , 全局方法通过利用关于模型、训练和相关数据的整体知识聚焦于模型本身 , 它试图从总体上解释模型的行为 。 特征重要性是全局方法的一个很好的例子 , 它试图找出在所有不同的特征中对模型性能有更好影响的特征 。
1.1.3 模型前 vs 模型中 vs 模型后方法(Pre-model vs in-model vs post-model)
模型前方法是一类独立的、不依赖于任何深度学习模型结构的可解释性方法 , 主成分分析(PCA)、流形学习中的 t-SNE 都属于这一类方法 。 集成在深度学习模型本身中的可解释性方法称为模型中方法 。 模型后方法则是在建立深度学习模型之后实施的 , 这一类方法主要聚焦于找出模型在训练过程中究竟学到了什么 。
1.1.4 替代方法 vs 可视化方法(Surrogate Methods vs Visualization Methods)
替代方法由不同的模型组成一个整体 , 用于分析其他黑盒模型 。 通过比较黑盒模型和替代模型来解释替代模型的决策 , 从而辅助理解黑盒模型 。 决策树(Decision tree)就是替代方法的一个例子 。 可视化方法并不是构建一个新的不同的模型 , 而是通过可视化的方法 , 例如激活图(Activation Maps) , 帮助解释模型的某些部分 。
1.2 可解释深度学习模型在医疗图像分析中的应用分类
具体到医疗图像分析领域 , 引入可解释性方法的可解释深度学习模型主要有两类:属性方法(attribution based)和非属性方法(non-attribution based) 。 两类方法的主要区别在于是否已经确定了输入特征对目标神经元的联系 。 属性方法的目标是直接确认输入特征对于深度学习网络中目标神经元的贡献程度 。 而非属性方法则是针对给定的专门问题开发并验证一种可解释性方法 , 例如生成专门的注意力、知识或解释性去辅助实现专门问题的可解释深度学习 。
1.2.1 属性方法
属性方法的目标是确定输入特征对目标神经元的贡献 , 通常将分类问题正确类别的输出神经元确定为目标神经元 。 所有输入特征的属性在输入样本形状中的排列形成热图(heatmaps) , 称为属性映射(Attribution Maps) 。 图 2 给出了不同图像的属性映射示例[3] 。 对目标神经元激活有积极贡献的特征用红色标记 , 而对激活有负面影响的特征则用蓝色标记 。
机器之心|一文探讨可解释深度学习技术在医疗图像诊断中的应用
本文插图

图 2. 基于 Imagenet 图像的对 VGG-16 属性的研究示例[3]
扰动(Pertubation)是分析输入特征的改变对深度学习模型输出的影响的最简单方法 , 一般可以通过移除、屏蔽或修改某些输入特征、运行正向过程(输出计算)并测量与原始输出的差异来实现 。 这一过程类似于在参数控制系统模型中进行的灵敏度分析 。 将对输出影响最大的输入特征确定为最重要的特征 。 对于图像数据来说 , 实现扰动的一种方法是用灰色斑块覆盖掉图像中的一部分进而将它们从系统视图中遮挡去除掉 。 以此来突出有效特征 , 从而提供正向和负向证据 。 另一种基于扰动的方法是 Shapley 值采样(Shapley Value sampling) , 它通过对每个输入特征进行多次采样来计算近似 Shapely 值 , 这也是联合博弈论中描述收益和损失在输入特征之间公平分配的一种常用方法 。


推荐阅读