科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用( 三 )


2、FinTab 介绍
作者分析 , 现有的应用于表格识别任务中的数据集存在下述两个问题:1)从财务文档中提取表格信息的方法和标准数据集很少 。 2) 表格信息提取的来源缺乏多样性 。 本次发布的基准数据集 FinTab 旨在解决上述问题 。 在这个数据集中 , 总共收集了 19 个 PDF 文件和 1600 多个表格 。 具体文件分类见表 2 。 所有文件总计 3329 页 , 其中 2522 页包含表格 。 为了保证表格类型的多样性 , 除了表格的基本形式外 , FinTab 中还包括了不同难度的特殊表格形式 , 如半规则表格、跨页表格、合并单元格表格、多行标题表格等 。 FinTab 中共有 119021 个单元格 , 合并单元 2859 个 , 占 2.4% 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用表 2. FinTab 的文档类型分类
FinTab 包含各种类型的表 。 在这里 , 我们按难易程度简单介绍其中的一些 。
1) 基本单页表格 。 这是最基本的表格类型 , 它占用不到一个页面 , 并且不包括合并单元格 。 值得一提的是 , 本数据集中不仅提供了文本的基本事实和结构信息 , 而且还提供了表格的单位 , 因为大多数财务表格包含了相当多的数字 。
2) 包含合并单元格的表格 。
3) 跨页表格 。 当表格是跨页展开的 , 则需要将跨页表格合并 。 如果两页的页眉是重复的 , 则只需保留一页 。 页码和其他无用信息也应删除 。 另一个需要注意的任务难点是 , 如果一个单元格被两个页面分隔 , 则应该根据其语义将其合并为一个单元格 。
4) 表格线条不完整 。 在这种情况下 , 需要根据文本的位置、格式和含义智能地定位分界线 。
3、方法介绍
本文提出了一种新的基于图神经网络(GCN)的表格结构识别算法 GFTE(a novel Graph-Neural-Network-based algorithm) , GFTE 的完整工作流程如图 2 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用图 2. GFTE 完整工作流程
GFTE 可以概括为以下步骤:(a) 构建基本事实 , 包括表格区域的图像、文本内容、文本位置和结构标签 。 (b) 基于单元格构造一个无向图 G= 。 (c)使用 GFTE 来预测相邻关系 , 包括垂直关系和水平关系 。 表 3 给出一个任务示例(表格文字已经转换为英文) 。
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用表 3. 本文中用来阐述方法的示例性表格的翻译版本
首先 , 作者解释了任务的具体内容 。 在表格识别问题中 , 可以将表格中的每个单元格视为一个节点 , 节点与它的邻域可以理解为边 。 如果用 N 表示节点集 , 用 E_C 表示完全连通的边 , 则表格结构可以用一个完整的图来表示 G= , R_C = EC x {vertical ,horizontal ,unrelated} 。 我们可以把这个问题解释为:给定一组节点 N 及其特征 , 尽可能精确地预测节点对之间的关系 R_C 。 由于 R_C 描述每个节点(表格的单元)的互相关系 , 计算量颇大 , 文中只考虑了单元格周围相邻的格子 , 也就是利用 K - 最近邻(KNN)方法构造 R_C , 它包含每个节点与其 K 个最近邻之间的关系 。 每个节点包含三种类型的信息 , 即文本内容、绝对位置和图像 , 如图 3 所示 。 然后 , 利用结构关系来建立基本的图结构 , 整个结构可以如图 4 所示 。 为了提高准确度 , 分别训练水平和垂直关系 。 对于水平关系 , 将每条边标记为(1: 在同一行中 , 或 0: 不在同一行中) 。 对于垂直关系 , 将每条边标记为(1: 在同一列中 , 或 0: 不在同一列中)(图 4) 。


推荐阅读