计算机视觉工坊汇总|实时性语义分割算法(全)
北京联盟_本文原题:汇总|实时性语义分割算法(全)
作者:Danny明泽来源:微信公众号|计算机视觉工坊(系投稿)
我们在上篇——汇总|实时性语义分割算法(上篇)中 , 已经总结了【1】~【12】 , 这里我们继续 。
【13】用于实时语义分割的双向分割网络
《BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation》
链接:https://arxiv.org/pdf/1808.00897.pdf
本文的出发点是因为以往的工作中的1.感受野太小 2.空间信息的损失
关于空间信息
空间信息(Spatial information)主要指的是图像的局部细节信息 , 尤其是对于边缘丰富的图像 。 由于卷积网络规模大 , 一般要求输入图像尺寸较小 , 需要对原始图像进行Crop或者Resize , 这个过程会损失细节的空间信息 。 通过设置只包含3个网络的Spacial Path , 可保留丰富的空间信息 , 进而将低纬度的空间细节信息与高纬度的信息整合 。
网络框架:
本文插图
右边为特征融合模块(FFM):
Spatial Path 捕获的空间信息编码了绝大多数的丰富细节信息 , Context Path 的输出特征主要编码语境信息 。 两路网络的特征并不相同 , 因此不能简单地加权两种特征 , 要用一个独特的特征融合模块以融合这些特征 。
实验结果:
本文插图
【14】用于实时语义分割的轻量级精细网
《Light-Weight RefineNet for Real-Time Semantic Segmentation》
链接:https://arxiv.org/pdf/1810.03272v1.pdf
论文提出了RefineNet 的轻量化版本Light-Weight RefineNet, 针对实时分割任务 , 将速度从20FPS提升到了55FPS(GPU , 512*512输入 , Mean IOU 81.1% , PASCAL VOC测试集) 。
网络结构:
本文插图
本文插图
本文插图
RefineNet 的总体网络结构 , 分为下采样的encoder部分和上采样的decoder部分 。 网络主要包含4个模块 , RCU , CRP , FUSION , CLF 。 为了轻量化该网络 , 分别使用RCU-LW , CRP-LW 。
FUSION-LW替换了原始网络的RCU , CRP , FUSION 。 通过后续的实验作者又发现RCU对于网络的精度提升效果微弱 , 因此将RCU模块也去掉了 。
为什么去掉RCU模块 , 网络精度影响很小?
因为:
(1)虽然RCU模块中的3*3卷积使得网络具有更大的感受野 , 但是通过shortcut结构 , 底层特征和高层特征也可以共享 。
(2)CRP模块也可以获得上下文的信息 。
可以从下图看出 , RCU模块对精度提升微弱 , 而CRP模块对精度提升明显 。
本文插图
模型参数比较:
本文插图
基于ResNet101的基础结构的RefineNet , 第一个为传统的RefineNet , 第二个为带RCU的RefineNet , 第三个为不带RCU的RefineNet 。 可见RefineNet-101-LW相比RefineNet-101将参数量和运算量都大大降低 。
【15】ShelfNet用于实时语义分割
《ShelfNet for Real-time Semantic Segmentation》
推荐阅读
- 汽车|复旦博士、脱口秀演员开发类视网膜传感器 将无人车视觉感光性能提升1万亿倍
- 游戏|《地平线:西部禁域》中文故事预告 新主视觉图公布
- 飞机|两架客机眼看在空中“相撞”却擦身而过 专家:视觉错觉 相距很远
- 一加10|Pixelworks三大视觉技术加持:一加10 Pro显示颜色完美无偏差
- OPPO|专为色觉障碍人士打造!OPPO公开色彩视觉检测技术:辨色正确度提升80%
- 论文|2020中国卓越科技论文近50万篇:计算机等4大领域位列世界第一
- 特斯拉|马斯克在线科普特斯拉为何不用雷达 网友道破真相:纯视觉成本低
- 视觉欺骗|2021年最强视觉欺骗!只有王者级的眼睛才能识破
- IDC|仅剩十年!IDC称经典计算机将面临来自量子计算机的巨大挑战
- 大学生|5名大学生处置实验室漏水获奖12万:避免我国新一代量子计算机研发延误