科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用( 六 )
TableNet 使用编码 - 解码器架构 , 利用预训练的 VGG-19 层作为基础网络 。 VGG-19 的全连接层(pool5 之后的层)被两个(1x1)卷积层取代 。 每个卷积层(conv6)使用 ReLU 激活 , 然后是一个概率为 0.8 的 dropout 层(conv6+dropout , 如图 1 所示) 。 在这一层之后 , 附加了解码器网络的两个不同分支 。 因此 , 单一编码网络可以同时利用表格区域和列区域的特征 , 从而更好地找到活动区域 。 (conv6+dropout)层的输出被分配到两个解码器分支 。 在每个分支中 , 通过增加额外的层以过滤出相应的活动区域 。 在解码器网络的表格分支中 , 使用额外的(1x1)卷积层 conv7_table , 然后使用一系列分数阶跃的卷积层来提升图像 。 conv7_table 的输出也使用分步卷积进行放大 , 并附加了相同维度的 pool4 池化层 。 类似地 , 再次放大组合特性映射 , 将 pool3 池化层附加到其中 。 最后 , 对最终得到的特征图进行放大 , 以满足原始图像的维度要求 。 在另一个检测列的分支中 , 有一个附加的卷积层(conv7_column) , 具有 ReLU 激活函数和相同 dropout 概率的 dropout 层 。 在(1x1)卷积(conv8 列)层之后 , 使用分步卷积对特征图进行上采样 。 将上采样的特征映射与 pool4 池化层相结合 , 上采样的组合特征映射与具有相同维度的 pool3 池化层相结合 。 在这一层之后 , 放大特征图至原始图像的大小 。 在两个分支中 , 在转置层之前使用多个(1x1)卷积层 。 最后 , 计算图的两个分支的输出生成表格和列区域的掩码 。
1.2 提取表格行
在使用 TableNet 处理文档之后 , 可以得到表格和列区域的掩码 。 这些掩码用于从图像中过滤出表格及其列区域 。 因为文档的所有单词位置都是已知的(使用 Tesseract-OCR) , 因此只过滤掉了表格和列区域内的单词补丁 。 基于这些过滤后的单词提取表格行 , 一行可以被定义为来自多个列的单词的集合 。 然而 , 一行不一定只局限于一行 , 根据列或行的内容划分 , 一行可以跨越多行 。 因此 , 为了涵盖不同的可能性 , 本文制定了三种行分割规则:
1)在大多数有标线的表格中 , 直线将每列中的行分段 。 为了检测可能的行划分 , 通过 Radon 变换测试列中两个垂直放置的单词之间的每个空格是否存在行 。
2)如果一行跨越多行 , 则表格中具有最大非空项的行被标记为新行的起点 。 例如 , 在一个多列表格中 , 一些列可以只包含一行的条目 , 而其他的列可以有多行的条目 。 因此 , 每列中的所有实体都被填充后 , 新的一行就开始了 。
3)表格中的所有列都被完全填充 , 并且没有标线 , 则每一行(级别)都可以看作是一个唯一的行 。
1.3 数据集准备
本文使用 Marmot 数据集进行模型训练 。 Marmot 是用于表格检测的最大的公共可用数据集 , 但是 , Marmot 中没有对表格列或行的注释 。 因此 , 作者手动标注数据集以进行表格结构识别 。 通过在表格区域内每个列周围的边界框上添加标签 , 手动对数据集进行注释 。 手动注释的修改数据集以 Marmot Extended 的名称公开发布 , 用于表格结构识别: 。
2、实验分析
本文实验是基于 ICDAR 2013 表格竞赛数据集完成的 。 作者根据召回率、查准率和 F1 分数对模型性能进行评价 , 对每个文档计算这些度量值 , 并在所有文档中取其平均值 。 本文使用的 Mamot Extended 数据集中共有 1016 份文件 , 包括中文和英文表格 , 其中 509 份英文文件附有注释 , 并用于训练 。 使用 Tensorflow 实现该深度学习模型 , 并在一个使用 Intel(R)Xeon(R)Silver CPU(32 核)和 128 GB Tesla V100-PCIE-1 GPU 的 RAM 和 6GB GPU 内存的系统上完成实验 。
表 1. 表格检测实验结果
推荐阅读
- 所持股份|万兴科技:公司控股股东、实际控制人吴太兵质押150万股
- 发布公告|数量过半!博创科技:天通股份累计减持约150万股
- 英雄科技聊数码|蔡崇信有实力买下篮网,那身价3200亿的马云,能买下几支NBA球队
- 科技前沿阵地|涨疯了!海思安防芯片遭哄抬“围剿”
- 中加投资资讯|北美媒体人评价不错,《花木兰》终于来了!神仙姐姐超能打
- 游戏资讯小驿站|我的世界拔刀剑模组:独特设定!帮助玩家更深入了解刀的制作
- 月影浓|吴亦凡机械造型走秀 垫肩披风搭银框眼镜科技感足
- 资讯早知道|9年后再看《步步惊心》,发现若曦无论跟谁都不会幸福
- 中国历史发展过程|中国历史发展过程.中国的科技史界过去半个多世纪
- 天津|桂发祥:不再持有昆汀科技股份