学习扩增:联合数据扩增和针对文本识别的网络优化

问题来源:由于手写文本、图形文本中出现的不同形状与扭曲的图案的影响 , 对其进行数据扩增变得十分困难 。 训练出一个健壮的识别模型需要大量的数据以满足其多样性是目前的一个重要的研究内容 。
如何得到一个健壮的深度神经网络
通常 , 训练一个健壮的深度神经网络时 , 需要大量的有效数据进行支持 , 但是现实中 , 提供的数据经常是有限的 , 因此会导致训练出的深度神经网络一直没有达到理想中的状态 , 网络表现出过拟合的状态甚至会产生一些低效的测试集 。
而要得到大量的数据集 , 之前往往采用的是数据收集以及注释的方法 , 这种方法需要大量的资源 。 他们要花费的精力与成本是十分高的 , 并且还有可能造成没有覆盖到数据的多样性的结果 。 相比于数据收集与注释 , 数据扩增是一个高效低花费的方法 。
其中 , 为了获得更多的训练样本 , 将随机扩增应用到现有的数据中也被当做一个可行的方法 。 (不同与一般的类别分类工作 , 为文本字符串注释是更加困难的 , 因为在文本图片中可能会出现多种多样的字符 , 这也是为什么大多数先进的图形文本识别方式只使用合成样本的进行训练的原因)
研究内容本文对于数据扩增提出了一个新的方法 , 不同于传统的例如旋转、缩放以及透明度变换的数据扩增方法 。 通过学习一些适宜的有效的数据扩增方法 , 训练出一个健壮的判断器 。
下面是这篇文章的工作思想:

  1. 为包含多种特征的文本图像提供了一个数据扩增的方式 。 并且从作者的了解当中 , 他们第一个提出顺序式特征的数据扩增方法 。
  2. 他们提出了一个联合数据扩增与识别模型的理念 , 这个扩增样本是通过一个自动学习的过程而产生的 , 相比于一般的方法 , 实验结果证明生成的数据在模型训练过程中是非常有效与有用的 。 并且这个框架是彻底的不需要任何微调的 。
  3. 广泛的研究证明 , 在不同的基准上 , 包括图像文本与手写文本 , 论文提出的扩增与联立学习方式积极的促进了识别器的识别表现 , 尤其是在小的训练集当中 。
研究的重点问题:一、对于手写文本 , 生成手写文本合成数据是一个十分有挑战性的工作 , 因为模仿不同的书写风格是非常困难的 。
二、手写文本具有不同的书写风格 , 图形文本具有不同的形状 , (对于一些透明的、扭曲的文本 , 依然很难被识别) 。 因此 , 几何扩增是一个很重要的获得识别方式的方法 。
研究方法:a.通过对文本进行分割 , 对分割的图像进行处理得到一些及准确 , 使用这些基准点集合来对图像进行几何扩增控制 , 该数据扩增方式变得灵活与可控 。 此外 , 提出使用联立学习的方式来缩小数据扩增中的一些孤立的过程中与网络优化之间的差异 。
b.对于基准点的操作 , 提出使用代理网络从识别网络中的输出数据中进行学习 , 并且通过控制基准点来为识别网络生成更多的恰当的训练样本 。
c.通过基于不同对于基准点的广泛实验 , 包括规则的图形文本、不规则的图形文本以及手写文本 , 表明这种扩增方式以及这个联立学习的方式在促进识别网络的表现上起到了至关重要的作用 。 在这之前 , 作者使用了一个用来进行几何扩增的通用工具包来完成对图片进行几何操作 。
研究分析:1.相比于通常的数据扩增方法 , 文章将每个字符的多样性都纳入了考虑当中 。 对于一个文本图片 , 扩增的目标是去提高每一个在文本字符串中的特征的多样性 。 因此 , 现存的扩增是被限制在一些很简单的转换方式 , 这也使训练变得很没有效率 。 其中 , 长尾分离(文字之间的嵌连)也是一个很重大的影响 。
2.在人为静态分配控制下 , 扩增生成的数据或许会生产出很多没有意义的训练样本 。 所以说 , 随机扩增的方法在静态分配下很难满足动态优化的需求 。 因此在扩增过程中去除人为因素变得很重要 。 因此代理网络是十分必要的 。


推荐阅读