科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用( 二 )
图 1. 包含跨单元格的表格和使用现有方法恢复的表格结构示例
1、经典表格识别数据集及表格识别方法回顾
首先 , 作者回顾了以前发布的用于表格识别任务的数据集 , 然后介绍了表格识别的不同方法 。
1.1、数据集
(1)Marmot[2] 。 Marmot 数据集由中英文两部分组成 。 中文网页是从方正阿帕比图书馆(Founder Apabi library)提供的超过 120 本不同学科领域的电子书中收集的 , 而英文网页则来自 Citeseer 网站 。 该数据集是基于 PDF 格式文件的 , 存储了所有文档布局的树结构 , 其中的叶子是字符、图像和路径 , 根是整个页面 。 内部节点包括文本行、段落、表格等 。
(2)UW3 和 UNLV。 UW3 数据集 [3] 是从 1600 页倾斜校正的英文文档中收集的 , 其中 120 页包含至少一个标记的表格区域 。 UNLV 数据集来自 2889 页扫描文档图像 , 其中 427 幅图像包括表格 。
(3)ICDAR 2013[4] 。 该数据集共包含 150 个表格:欧盟 27 个摘录中的 75 个表格 , 美国政府 40 个摘录中的 75 个表格 , 即总共 67 个 PDF 文档 , 共包含 238 页英文页面 。
(4)ICDAR 2019[5] 。 该数据集用于 ICDAR 2019 年表格检测和识别竞赛 。 整个数据集划分为训练部分和测试部分 。 训练数据集包含 600 个现代文档的图像及其表格区域的边框 , 以及 600 个文档的图像、表格区域和单元格区域的表格结构和边框 。 在测试数据集中 , 提供了 199 份档案文献和 240 份现代文献的图像和表格区域 。 此外 , 还包括 350 份档案文献的表格结构和单元区域 。
【科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用】(5)PubTabNet[6] 。 PubTabNet 数据集包含 56.8 万张表格数据的图像 , 以及图像对应的 html 格式的注释 。 更具体地说 , 该数据集提供了表格结构和字符 , 但缺少边界框 。
(6)SciTSR[7] 。 SciTSR 是一个综合性的数据集 , 由 15000 个 PDF 格式的表格、表格区域的图像、它们对应的结构标签和每个单元格的边框组成 。 其中 , 12000 个文档用于训练 , 3000 个用于测试 。 同时 , 还提供了一个称为 SciTSR-COMP 的复杂表列表 。
(7)TableBank 表格库[8] 。 TableBank 是基于图像的表格检测和识别数据集 。 由于涉及两个任务 , 所以它由两个部分组成 。 对于表格检测任务 , 包含了表格区域的页面和边框的图像 。 对于表格结构识别任务 , 提供了表示行和列的排列以及表格单元类型的页面和 HTML 标记序列的图像 。 然而 , 由于这个数据集不涉及文本内容识别任务 , 因此不包含文本内容及其边界框 。
关于上述七个数据集的详细信息见表 1 。 可以看出 , 除 Marmot 中包含有部分中文表格外 , 其它数据集均为英文数据集 。
表 1. 用于表格识别的公共数据集
1.2、表格识别方法
表格识别被视为表格理解的一部分 , 通常包括两个步骤:
1) 表格检测 。 也就是说 , 在这个步骤中 , 将文件中的某个部分标识为表格 。
2) 表格结构分解 。 这一步骤的任务是识别出原始表格的组件 , 通过对组件的堆叠恢复原始表格 。 例如 , 标题元素的正确标识、列和行的结构、数据单元的正确分配等等 。
现有的表格识别方法主要包括三大类:1)基于预定义布局的方法 , 2)基于启发式的方法 , 3) 基于统计或优化的方法 。 基于预定义布局的方法为可能的表格结构设计多个模板 。 如果文档的某些部分对应于某些模板 , 则它们被标识为表格 。 基于启发式的方法指定一组规则来进行决策 , 以便检测出满足特定条件的表 。 基于统计或优化的方法首先通过离线训练获得统计指标 , 然后将估计得到的参数用于实际表格识别 。
推荐阅读
- 所持股份|万兴科技:公司控股股东、实际控制人吴太兵质押150万股
- 发布公告|数量过半!博创科技:天通股份累计减持约150万股
- 英雄科技聊数码|蔡崇信有实力买下篮网,那身价3200亿的马云,能买下几支NBA球队
- 科技前沿阵地|涨疯了!海思安防芯片遭哄抬“围剿”
- 中加投资资讯|北美媒体人评价不错,《花木兰》终于来了!神仙姐姐超能打
- 游戏资讯小驿站|我的世界拔刀剑模组:独特设定!帮助玩家更深入了解刀的制作
- 月影浓|吴亦凡机械造型走秀 垫肩披风搭银框眼镜科技感足
- 资讯早知道|9年后再看《步步惊心》,发现若曦无论跟谁都不会幸福
- 中国历史发展过程|中国历史发展过程.中国的科技史界过去半个多世纪
- 天津|桂发祥:不再持有昆汀科技股份