架构|第四范式提出AutoSTR,自动搜索文字识别网络新架构
本文插图
作者 | 第四范式
在最近被ECCV2020接收的论文AutoSTR中 , 第四范式的研究人员提出了使用网络结构搜索(NAS)技术来自动化设计文本识别网络中的特征序列提取器 , 以提升文本识别任务的性能 。
1
修复技术论文综述
本文插图
由于文本的多样性和场景的复杂性 , 场景文本识别(Scene Text Recognition , STR)具有很大的挑战性 。 通过对图像预处理模块(如校正和去模糊)或特征序列翻译模块的改进 , 提高文本识别网络的性能越来越受到各方关注 。 然而 , 另一个关键模块 , 即特征序列抽取器(骨干网络) , 还没有得到广泛的研究 。
受神经架构搜索(NAS)的成功启发 , 第四范式提出了自动STR(AutoSTR)来搜索数据相关的主干网络 , 以提高文本识别性能 。首先 , 该工作为STR设计了一个特定领域的搜索空间 , 既包含了操作上的选择 , 也包含了对下采样路径的约束 。通过一个两步搜索算法将操作和下采样路径分离 , 以在给定的空间内进行有效的搜索 。实验表明 , 通过搜索数据相关的主干网络 , AutoSTR可以在标准基准测试中优于其他SOTA方法 。
本文插图
论文地址:https://arxiv.org/pdf/2003.06567.pdf
代码地址:https://github.com/AutoML-4Paradigm/AutoSTR
招聘启事:http://www.cse.ust.hk/~qyaoaa/pages/job-ad.pdf
研究组介绍:http://www.cse.ust.hk/~qyaoaa/pages/group.html
2
背景
场景文本识别(STR)是以识别自然场景图像中的文本为目标 , 因其在身份认证、数字金融系统、车牌识别等领域的巨大商业价值而受到学术界和工业界的广泛关注 。 自然场景中的图像是多种多样的 , 由于在大小、字体、背景和布局上差异巨大 , 使得STR仍然是一个非常具有挑战性的问题 。 场景文本识别过程通常由校正模块、特征序列提取器、特征翻译模块等三个模块组成 。 校正模块目的是在识别前将不规则文本图像转换为规范形式;特征序列提取器则通过卷积层将输入的文本图像转换为特征序列;特征翻译模块用于将特征序列翻译成字符序列 。
本文插图
此前, 许多方法通过提高矫正模块的性能 , 提高了文本识别的准确性 。在特征翻译方面 , 受语音识别和机器翻译等其他seq-to-seq(序列到序列)任务的启发 , 基于CTC(Connectionist temporal classification)和Attention方法的翻译模块已进行了深入探索 。相比之下 , 对于文本识别任务 , 特征序列抽取器的设计则相对较少 。如何设计一个更好的特征序列抽取器在STR文献中还没有得到很好的讨论 。然而 , 其对文本识别性能有很大影响 。例如 , 只需将特征提取器从VggNet替换为ResNet , 就可以获得显著的性能提升 。此外 , 特征序列抽取器承担着沉重的计算和存储负担 。因此 , 无论是有效性还是效率 , 特征序列抽取器的体系结构都应该引起业界的重视 。此外 , 直接迁移其他任务下的网络结构对于STR任务来说可能是局部最优的 。
近年来 , 神经网络架构搜索(NAS)在设计数据相关网络结构方面取得了巨大成功 , 其性能超过了人类专家在许多计算机视觉任务(例如图像分类、语义分割和对象检测中构建的体系结构) 。 因此 , 与其采用其他任务(例如图片分类和分割)中现成的特征抽取器 , 还不如重新设计数据相关的体系结构 , 以获得更好的文本识别性能 。
推荐阅读
- 互联网乱侃秀|美国想继续掌控半导体霸权?军方机构拿到ARM全部架构、IP
- 英特尔|把握创新发展主动权,华夏芯致力于架构自主化发展
- 行业互联网|把握创新发展主动权,华夏芯致力于架构自主化发展
- 赛道|跟踪支架出货量全球第四,中信博何以在拥挤赛道胜出?
- 行业互联网|国产内存迎来希望,中企有望跻身全球第四,明年量产17nm芯片
- 行业互联网,智能机器人|这家公司发布第四代移动机器人,最高负重600公斤
- |那个写脚本的架构师,被开除了...
- 融资并购|ConsenSys收购摩根Quorum开发区块链金融基础架构
- 行业互联网|恒远科技入选第四批山东省首版次高端软件名单
- 区块链|ConsenSys收购摩根Quorum开发区块链金融基础架构