|手残党福音:一键抠图、隔空移物,这篇CVPR华人论文帮你搞定( 二 )
预测模块是一个类 U-Net 的密集监督式编码器 - 解码器网络 , 它学习预测出自输入图像的显著图;多尺度残差精炼模块通过学习显著图和真值之间的残差来优化预测模块得到的显著图 。
本文插图
BASNet 整体架构 。
预测模块
受 U-Net[57] 和 SegNet[2] 的启发 , 研究者在设计中将显著目标预测模块作为编码器 - 解码器网络 , 因为这种架构能够同时捕获高级全局上下文和低级细节 。 为了减少过拟合 , 每个解码器阶段的最后一层都受到了 HED[67] 启发的真值的监督 。 编码器部分具有一个输入卷积层和六个由基本残差块组成的阶段 。 输入卷积层和前四个阶段均采用 ResNet-34[16] 。
优化模块
优化模块(RM)[22, 6] 通常被设计成残差块 , 通过学习显著图和真值之间的残差 S_residual 来细化预测的粗略显著图 S_coarse , 其中:
在提出优化模块之前 , 研究者定义了术语「粗略(coarse)」 。 在此 , 粗略包含两方面的意思:一种是模糊和有噪声的边界(如下图 3(b) 中 one-dimension(1D) 所示) 。 另一种情况是不均匀预测的区域概率(如图 3(c) 所示) 。
实际预测的粗略显著图通常包含两种情况(见图 3(d)) 。 如下图 4(a) 所示 , 基于局部上下文的残差细化模块(RRM LC)最初是用于边界优化 。
【|手残党福音:一键抠图、隔空移物,这篇CVPR华人论文帮你搞定】
本文插图
为了在粗略显著图中同时优化区域和边界 , 研究者提出了一种新的残差优化模块 , 它采用残差编码器 - 解码器架构 RRM_ Ours(如上图 2 和下图 4(c) 所示) 。
RRM_Ours 的主要架构与预测模块相似 , 但更加简单 , 包含输入层、编码器、桥、解码器和输出层 。 与预测模块不同的是 , 它的编码器和解码器都有 4 个阶段 , 每个阶段都只有一个卷积层 。
本文插图
混合损失
训练损失被定义为所有输出的总和:
为了获得高质区域分割和清晰边界 , 研究者提出将 ?^ (k) 定义为一个混合损失:
本文插图
其中 , ?^ (k)_ bce 表示 BCE 损失 , ? ^(k)_ ssim 表示 SSIM 损失 ,? ^(k)_ iou 表示 IoU 损失 , 这三种损失的影响如下图 5 所示:
本文插图
实验设置及结果
研究者在 6 个常用的基准数据集上对该方法展开评估 , 它们分别为 SOD、ECSSD、DUT-OMRON、PASCAL-S、HKU-IS 和 DUTS 。
实验采用的评估指标有 4 种 , 分别为精确率 - 召回率(Rrecision-Recall, PR)曲线、F 度量(F-measure)、平均绝对误差(Mean Absolute Error, MAE)和 relaxed F-measure of boundary(relaxF^b_β) 。
研究者首先验证了模型中每个关键组件的有效性 。 控制变量研究包含两部分内容:架构和损失 , 并且相关实验在 ECSSD 数据集上展开 。
下表 1 展示了控制变量研究的结果 。 可以看到 , BASNet 架构在这些配置下实现了最佳性能:
本文插图
为了进一步阐释损失的定性效果 , 研究者在不同的损失设置下对 BASNet 进行训练 , 结果如下图 7 所示 。 很明显 , 本研究提出的混合损失取得了非常好的定性结果 。
推荐阅读
- iQOO手机|王者玩家的福音来啦!iQOO 5推出KPL官方定制主题
- 雷科技|微信朋友圈又有骚技巧,一键设置居中签名,好友傻眼了
- 华为手机|华为手机就是一个扫描仪?纸质档能一键电子化,网友:涨知识了
- 苹果手机|苹果手机一键隐藏所有应用,看完我蒙了,桌面瞬间清爽
- 微信|开卡即绑卡 银行卡线下开户支持一键绑卡至微信支付
- 5G,荣耀手机|等等党的福音!最值得入手的两款旧旗舰,均已降至千元
- 5G|等等党的福音!最值得入手的两款旧旗舰,均已降至千元
- 医生|自己没病≠全家健康 签约京东健康家庭医生一键定制全家健康计划
- |华为MateBook142020笔记本,商务人士的福音,简化您的办公流程
- |比RGB更炫酷,手汗福音,迪摩F22炫光镜面版