架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构( 二 )


【架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构】3
本文工作

本文介绍了在STR中搜索特征序列提取器(主干)的首要工作 , 即AutoSTR 。 首先 , 我们设计了一个特定领域的STR搜索空间 , 该空间包含每个卷积层的操作选择和特征下采样路径的约束 。 不同于现有的NAS算法 , 第四范式提出了一种新的两步搜索流水线 , 它将操作和下采样路径搜索分离 , 通过复杂度正则化优化识别损失 , 在模型复杂度和识别精度上进行了很好的权衡 。 实验表明 , 在给定一个通用的文本识别流水线的情况下 , 搜索序列特征抽取器能够以较少的算力和参数数量获得最新的结果 。
作为一个不可或缺的通用模块 , 特征序列抽取器在当前大多数文本识别方法中起着至关重要的作用 。 该工作的目标是扩展NAS , 为通用文本识别过程寻找更好的主干网络 。 该工作的主要贡献如下:
我们发现 , 对于STR具有重要意义的特征抽取器结构在此前的工作中还没有得到很好的研究 。 这促使我们设计一个数据相关主干网络来提高文本识别的性能 , 这也是将NAS引入STR的第一次尝试 。

该工作为STR引入了一个特定域的搜索空间 , 该空间包含下采样路径和操作的选择 , 并提出了一种新的搜索算法将操作和下采样路径分离 , 从而在空间中进行有效的搜索 。 通过在搜索过程中加入一个额外的正则化器 , 在模型大小与识别精度方面进行了有效的权衡 。
该工作对各种基准数据集进行了大量的实验 。 结果表明 , AutoSTR可以发现data-dependent backbones , 并以更少的浮点运算和模型参数获得最先进的方法 。
(1)搜索目标
场景文本识别任务的输入是文本图像块 , 由于卷积神经网络(CNN)具有超强的自动提取视觉特征的能力 , 本文通过堆叠卷积层(Convolution layer)来搭建序列特征提取模块 。 一层卷积层可以被形式化定义为, 以下简称为, 其中 为输入特征矩阵 ,为带有超参数 的卷积层 。 更具体来说 ,定义了卷积层 的操作类型 , 可以为3X3的常规卷积操作、5X5的深度可分离卷积操作、3X3平均池化操作等等 ,分别代表着在卷积滑动过程中在高度和宽度方向上面的步长 , 用于控制特征分辨率的变换 。 因此 , 一个深度卷积网络 可以看做是由 层卷积操作层的堆叠构成的 , 表示为。 经过深度卷积网络 处理后 ,空间大小的输入 将被映射成固定大小的的输出 , 送入到特征翻译模块 。

为了自动化设计用于文本识别任务的序列特征提取器 , 本文需要调整结构超参数以搜索出合适的体系结构 , 这些结构由 (对于卷积步长)和 (对于卷积操作)控制 。 本文用 表示网络 在训练数据集上面的损失 , 用 表示网络 在验证数据集上面的准确率 。 本文可以将自动设计序列特征提取器定义为公式(1)中的双层优化形式 ,
其中 和 为上层表示网络结构的超参数 ,为下层网络卷积权重的变量 ,表示 需要满足的约束条件 , 也就是:
其中 和 是针对于应用的输出特征空间大小的约束 , 约束 的目的是控制序列特征模块输出的分辨率大小 , 以便适用于后面的翻译模块 。
(2)搜索空间
搜索空间的设计是整个网络结构搜索的关键点 , 我们为STR任务设计了一个两级的层次化搜索空间 , 即下采样路径层级搜索空间和操作层级搜索空间 , 如下图所示 。

经过矫正后的输入文本图像中 , 字符在图像中呈水平位置均匀放置 , 为了在紧凑的文本的形状中保留图像中字符更具区分性的特征 , 一种最常见的做法是沿着高度轴压缩特征直到降低为1 , 但是沿着宽度轴方向压缩更少的倍数以确保最终的特征序列长度大于字符串的长度 。 更具体来说 , 当前的主流方法使用的都是ASTER中提出来的特征序列提取器 。 输入的文本图像的高度统一为固定的大小 , 例如32 。 并且为了在宽度轴上面保留更多的分辨率 , 以区分相邻的字符, 因此卷积步长超参数 只能从 中选择 , 在整个下采样路径中 出现2次 ,出现3次 , 从而满足约束 使得 、, 最终大小为 的输入文本图片被映射为长度 大小的特征序列 , 送入到后面的特征翻译模块 。 如下图任意一条从 到 的连通路径表示下采样路径搜索空间中一种结构配置 。 本文的目标是在这样的3D网格搜索空间中找到一条路径 , 实现最佳的识别性能 。


推荐阅读