科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用( 八 )
本文提出了一种鲁棒的基于深度学习的表格结构提取方法 , 能够从文档图像的表格中高精度地提取行和列 。 在该方法中 , 首先对表格图像进行预处理 , 然后将其输入带有门控递归单元(Gated Recurrent Unit , GRU)的双向递归神经网络 , 然后通过 softmax 激活实现全连接层 。 网络从上到下、从左到右扫描图像 , 并将每个输入分类为行分隔符或列分隔符 。 该方法的核心就是 GRU 的引入 , 与传统的基于 CNN、启发式算法的方法相比 , 基于序列的模型可以有效捕捉表格中重复的行 / 列结构 , 因此能够大大改进表格结构识别的性能 。
1、方法介绍
该方法分为三个模块:图像预处理、行列分类器和后处理 。 预处理模块将包含文本的表格图像转换为不包含文本特征的自然图像 。 然后 , 将这些图像传递给行列分类器模块 , 行列分类器模块使用行和列作为时间步长对每行和每列进行分类 。 后处理模块对分类器生成的分割空间进行解析 , 给出行和列的单行预测结果 。
1.1 图像预处理
首先 , 对表格图像进行预处理 , 将原始表格图像转换为更简单的形式 , 从而突出表格的布局或结构 。 这种转换的目的是通过去除输入图像中不必要的细节来提高分类器的效率 。
具体的预处理过程包括:去除掉图像中的划线和其它非文本的前景对象 , 对清理后的图像进行自适应二值化处理 , 使像素强度均匀 。 图像二值化处理后 , 尺寸调整为 1600x512 以便于后续输入神经网络处理 。 使用矩形核对调整后的图像进行三次膨胀变换(Dilation Transform) 。 在列检测的情况下 , 膨胀核(Dilation Kernel)是维数为 3x5 的垂直膨胀滤波器 , 在行检测的情况下 , 它是维数为 5x3 的水平膨胀滤波器 。 通过这些膨胀变换处理 , 能够连接表格中相邻的行和列 , 从而有助于模型获取行和列分隔符的模式 。 然后 , 将变换后的图像标准化 , 使其值介于 0 和 1 , 以将其输入到后续的递归神经网络 。
1.2 分类器
和之前兩篇文章不同 , 分类器的核心是利用循环神经网络识别行和列间的分割区域 。 作者首先考虑的是门控递归单元(GRU)和长短期记忆网络(Long Short-Term Memory, LSTM)这两种循环神经网络 。 这两种网络都可以在避免梯度消失问题的情况下合并引入上下文信息 。 作者提出 , 在行和列分类方面 , GRUs 的性能优于 LSTM , 且二者在分类器的应用场景中工作过程类似 , 因此 , 本文中的具体分析都以 GRU 为例 。 双向 GRU 以行和列作为基本时间步长 , 使用利用行 - 列元素的信息来预测未来的行 - 列元素 。 由于 GRUs 中的存储单元可以有效地学习行间距和列间距的模式以及行 - 列元素的重复顺序 , 因此该方法比基于 CNN 的模型有了显著的改进 。 下面 , 分两个部分分别介绍行和列分类的神经网络结构 。
1) 列分类:列分类将图像的每一列分类为列或两列之间的空白 。 每次输入一个图像 , 每个图像都被看作是一个类似于随机梯度下降(SGD)的批处理图像 。 在一个批次中 , 将尺寸为 1600x512 的预处理输入图像划分成 1600 个序列(列) , 每个序列由 512 个像素值组成 。 两层 GRU 初始化为隐藏维度(4 x1x 512) , 对应于“2 x 层数 x 批次大小 x 隐藏维度大小” 。
GRU 将图像处理为 1600 个时间步长 , 每个时间步长对应一个具有 512 个输入像素值的列 。 在每个时间步长(timestep) , GRU 都考虑了关于当前列的左侧和右侧(如果有)的所有列的信息 , 以及当前列中包含的正在计算的像素值的信息 。 使用这些信息 , GRU 可以学习识别列之间的空白间隙 , 因为这些列主要包含白色像素 , 并且在其左右两侧有两个列区域 。
GRU 的输出是一个 1600x512 形状的张量 , 对应的是“序列长度 x 隐藏维度” 。 然后 , 这个张量通过一个全连接层 , 输出一个 1600x 2 形状的张量 , 再经过一个 softmax 层 , 得到形状为 1600 x 2 的最终输出 , 由 1600 列中每个列的二进制类概率组成 。
推荐阅读
- 所持股份|万兴科技:公司控股股东、实际控制人吴太兵质押150万股
- 发布公告|数量过半!博创科技:天通股份累计减持约150万股
- 英雄科技聊数码|蔡崇信有实力买下篮网,那身价3200亿的马云,能买下几支NBA球队
- 科技前沿阵地|涨疯了!海思安防芯片遭哄抬“围剿”
- 中加投资资讯|北美媒体人评价不错,《花木兰》终于来了!神仙姐姐超能打
- 游戏资讯小驿站|我的世界拔刀剑模组:独特设定!帮助玩家更深入了解刀的制作
- 月影浓|吴亦凡机械造型走秀 垫肩披风搭银框眼镜科技感足
- 资讯早知道|9年后再看《步步惊心》,发现若曦无论跟谁都不会幸福
- 中国历史发展过程|中国历史发展过程.中国的科技史界过去半个多世纪
- 天津|桂发祥:不再持有昆汀科技股份