架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构( 四 )


架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图

AutoSTR在IIIT5K、SVT、IC15、SVTP中表现最好 , 在IC03、IC13中也获得了相似的结果 。 值得注意的是 , AutoSTR在IIIT5K、SVT、IC03、IC13、SVTP、IC15上的表现优于ASTER , 分别为1.4%、1.9%、0.9%、2.7%、2.3% , 证明了AutoSTR的有效性 。 尽管SCRN可以获得与AutoSTR相当的性能 , 但它的校正模块需要额外的字符级注释来实现更精确的校正 。 作为一个插件 , AutoSTR在配备SCRN整流模块的同时 , 有望进一步提高性能 。
在计算耗能方面 , 下图详细比较了各方法的浮点运算和内存大小 。
架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图

从中看出 , 与SAR、CA-FCN、ESIR、SCRN、ASTER等目前最先进的方法相比 , AutoSTR搜索的架构在浮点运算和参数复杂度上都要更少 。 因此 , AutoSTR在移动环境下更有效 。
(2)AutoSTR主干网络在性能、准确性、计算方面均有提升

在数据集依赖关系上 , 下图展示了每个测试数据集上搜索到的特征表达式体系结构 , 以提供有关网络设计的一些见解 。 从中可以发现 , 网络的较浅的卷积级(例如 , 1、2)更喜欢较大的MBConv操作(例如 , MBConv(k:5 , e:6)) , 并且没有跳过连接层 。 但是在较深的卷积阶段(例如 , 3、4、5) , 部署较小的MBConv并学习跳跃连接以减少卷积层的数量 。
架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图

特别是在最后一个卷积阶段 , 只存在一个卷积层 。 观察到的现象与一些人工设计的网络架构是一致的 , 比如SCRN 。 具体地说 , 在前两个阶段 , ResNet50用于提取特征 , 而在后两个阶段 , 仅在快速下采样特征映射上附加几个卷积层来生成水平方向的特征序列 。 这一现象可能会启发我们设计更好的文本图像特征抽取器 。
在紧凑性上 , 我们将搜索到的架构与所有MBConv(k:5 , e:6)基线模型进行比较 , 后者选择每个层中参数数量最多的块 , 并使用ABABAB下采样策略 。
架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图

对比图5和图6 , 我们可以看到 , AutoSTR搜索的结构具有更少的浮点运算和参数 , 同时保持了更好的精确度 。

此外 , AutoSTR搜索的体系结构使用较少的浮点和参数 , 但超出了基线模型的精度 , 说明最大参数模型(All MBConv(k:5 , e:6)基线)存在大量冗余参数 , AutoSTR可以去除一些冗余层 , 优化网络结构 。
(3)AutoSTR在计算复杂度和准确度上有效权衡
在与随机搜索算法对比上 , 我们选择10个随机搜索体系结构 , 从头开始训练 , 然后在IIIT5K数据集上测试 。 随机搜索大约需要15×4 GPU天 , 而AutoSTR在下采样路径搜索步骤中只需要1.7×4 GPU天 , 而在操作搜索步骤只需要0.5×4 GPU天 。 如下图所示 , AutoSTR所发现的体系结构比IIIT5K数据集中的随机体系结构性能高0.5%-1.4% , 这表明AutoSTR更有效、更高效 。
架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图

在下采样路径上 。 我们在搜索空间中 , 使用了两种典型的策略 , 即AABBB和ABABB来搜索iit5k数据集上的操作 。
架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图

最佳下采样路径不受默认操作(即3×3残差卷积 , MBConv(k:3 , e:1))的影响 。 此外 , 一个更好的下采样策略(即ABABB)有助于AutoSTR在操作搜索步骤中找到一个更好的架构 。


推荐阅读