科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值( 二 )


采样模块
本文使用二类的Gumbel-Softmax来模拟离散采样的过程 , 其定义如下:
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值
文章图片
其中π表示采样概率 , 由一个3×3卷积和Sigmoid函数输出 , g表示噪音项 , 这是Gumbel-Softmax随机性的根源 。 如果去掉噪音项g , 则Gumbel-Softmax退化为一个确定性采样方法 。 τ则是温度项 , 当温度较高时 , M是一个可微的连续函数 , 而当温度较低时 , M退化为一个二值函数 。 温度项的初始值在训练开始时被设为1 , 然后随着训练轮数的增加指数级下降 , 在训练结束时 , τ接近于0 。 通过这种方式 , 掩模M既可以在训练的中前期被充分训练 , 又能在训练后期使得M接近于一个二值化掩膜 , 从而保持与推理阶段一致的行为 。 同时 , 为了激励网络产生稀疏的采样掩膜 , 本文引入稀疏损失函数(SparseLoss) , 其定义如下:
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值
文章图片
将其与下游任务的损失函数结合 , 就可以得到最终的目标损失函数:
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值
文章图片
其中 , γ是稀疏损失的权重 , 通过调整γ我们可以获得不同程度的稀疏性 。
插值模块
在使用采样模块生成采样掩膜M后 , 我们可以利用稀疏卷积来得到稀疏的特征图Y_S , 再通过插值模块对Y_S进行补全 , 得到完整的特征图Y^* 。 然而 , 补全特征所需要的最优插值形式是一个开放性问题 。 本文探索了三种不同的插值函数:RBFKernel、PlainConvolution以及AveragePooling , 并在实验中发现RBFKernel表现优于其他两种函数 , 因此本文将其作为默认的插值方法 。
同时 , 由于空间冗余具有局部性 , 因此我们可以使用滑动窗来实现高效的插值 。 为了避免在滑动窗内没有采样点的情况 , 本文额外使用了一个等间距均匀采样 , 但高度稀疏的掩膜M_grid与网络学习到的掩膜M_sample通过如下方式结合 , 得到最终使用的掩膜M:
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值
文章图片
利用这个技术 , 尽管最终性能并不受太多影响 , 但网络的训练过程可以变得更加稳定 。
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值
文章图片
与ResidualBlock进行集成
随机采样-插值网络可以被很容易地集成到常见的网络架构中 , 在此 , 本文以ResidualBlock作为例子进行介绍 。 如Fig.3所示 , 有三种不同的集成方法 , 作者通过实验发现Fig.3(b)的效果最好 , 因此使用其作为默认设定 。
实验与分析
消融实验
本文在COCO2017物体检测数据集上对其关键设计进行了验证 。 不同插值函数对结果的影响如Table.1所示:在mAP相当的情况下 , RBFKernel使用了更少的计算量 。 Table.2则比较了去掉插值模块对结果的影响 。 其对应的两个基线模型:对未采样区域的特征进行补零(FillZeros)或使用复用特征(ReuseFeature)均明显劣于本文所提出的插值方法 。 Table.3则研究了GridPrior对结果的影响 。
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值
文章图片
在物体检测与语义分割中与其他方法的比较
Fig.4中展示了本文所提出的方法与其他方法在Speed-accuracytrade-off下的比较 。 相比于基于均匀采样的方法(即缩小输入图片的尺寸) , 该方法效果提升十分显著 。 而与其他确定性采样方法相比 , 该方法也具有明显的优势 。
科技壹零扒|微软亚研提出节省推理计算量的新范式,当随机采样遇见插值


推荐阅读