按关键词阅读:
文章图片
作者 | 第四范式
在最近被ECCV2020接收的论文AutoSTR中,第四范式的研究人员提出了使用网络结构搜索(NAS)技术来自动化设计文本识别网络中的特征序列提取器,以提升文本识别任务的性能。
1
修复技术论文综述
由于文本的多样性和场景的复杂性,场景文本识别(Scene Text Recognition,STR)具有很大的挑战性。通过对图像预处理模块(如校正和去模糊)或特征序列翻译模块的改进,提高文本识别网络的性能越来越受到各方关注。然而,另一个关键模块,即特征序列抽取器(骨干网络),还没有得到广泛的研究。
受神经架构搜索(NAS)的成功启发,第四范式提出了自动STR(AutoSTR)来搜索数据相关的主干网络,以提高文本识别性能。 首先,该工作为STR设计了一个特定领域的搜索空间,既包含了操作上的选择,也包含了对下采样路径的约束。 通过一个两步搜索算法将操作和下采样路径分离,以在给定的空间内进行有效的搜索。 实验表明,通过搜索数据相关的主干网络,AutoSTR可以在标准基准测试中优于其他SOTA方法。
文章图片
代码地址:https://github.com/AutoML-4Paradigm/AutoSTR
招聘启事:https://www.cse.ust.hk/~qyaoaa/pages/job-ad.pdf
研究组介绍:https://www.cse.ust.hk/~qyaoaa/pages/group.html
2
背景
场景文本识别(STR)是以识别自然场景图像中的文本为目标,因其在身份认证、数字金融系统、车牌识别等领域的巨大商业价值而受到学术界和工业界的广泛关注。自然场景中的图像是多种多样的,由于在大小、字体、背景和布局上差异巨大,使得STR仍然是一个非常具有挑战性的问题。场景文本识别过程通常由校正模块、特征序列提取器、特征翻译模块等三个模块组成。校正模块目的是在识别前将不规则文本图像转换为规范形式;特征序列提取器则通过卷积层将输入的文本图像转换为特征序列;特征翻译模块用于将特征序列翻译成字符序列。
此前 ,许多方法通过提高矫正模块的性能,提高了文本识别的准确性。 在特征翻译方面,受语音识别和机器翻译等其他seq-to-seq(序列到序列)任务的启发,基于CTC(Connectionist temporal classification)和Attention方法的翻译模块已进行了深入探索。 相比之下,对于文本识别任务,特征序列抽取器的设计则相对较少。 如何设计一个更好的特征序列抽取器在STR文献中还没有得到很好的讨论。 然而,其对文本识别性能有很大影响。 例如,只需将特征提取器从VggNet替换为ResNet,就可以获得显著的性能提升。 此外,特征序列抽取器承担着沉重的计算和存储负担。 因此,无论是有效性还是效率,特征序列抽取器的体系结构都应该引起业界的重视。 此外,直接迁移其他任务下的网络结构对于STR任务来说可能是局部最优的。
近年来,神经网络架构搜索(NAS)在设计数据相关网络结构方面取得了巨大成功,其性能超过了人类专家在许多计算机视觉任务(例如图像分类、语义分割和对象检测中构建的体系结构)。因此,与其采用其他任务(例如图片分类和分割)中现成的特征抽取器,还不如重新设计数据相关的体系结构,以获得更好的文本识别性能。
3
本文工作
本文介绍了在STR中搜索特征序列提取器(主干)的首要工作,即AutoSTR。首先,我们设计了一个特定领域的STR搜索空间,该空间包含每个卷积层的操作选择和特征下采样路径的约束。不同于现有的NAS算法,第四范式提出了一种新的两步搜索流水线,它将操作和下采样路径搜索分离,通过复杂度正则化优化识别损失,在模型复杂度和识别精度上进行了很好的权衡。实验表明,在给定一个通用的文本识别流水线的情况下,搜索序列特征抽取器能够以较少的算力和参数数量获得最新的结果。
来源:(行走自由的花)
【江苏龙网】网址:/a/2021/0326/lmkd0RTG1542020.html
标题: 范式|第四范式提出AutoSTR,自动搜索文字识别网络新架构