科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用

机器之心分析师网络
作者:仵冀颖
编辑:Joni
本文从三篇表格识别领域的精选论文出发 , 深入分析了深度学习在表格识别任务中的应用 。
表格识别是文档分析与识别领域的一个重要分支 , 其具体目标是从表格中获取和访问数据及其它有效信息 。 众所周知 , 本质上表格是信息表达的一种重要形式 , 它能将数据组织成标准的结构 , 便于信息检索和比较 。 通常我们现阶段针对表格的处理方式是:人工使用 Excel 等工具打开表格 , 之后提取、操作和处理表格中的内容 。 人工处理表格的方式存在很多问题 , 一是 , 由于表格数量大 , 编辑过程中经常更新 , 不同的表格中可能写入了相同的内容 , 对这些表格进行手动交叉检查的时间有限 , 这种人工处理方法经常会出现表格处理错误、不一致等问题 , 这种错误和不一致可能会给公司带来巨大的声誉风险 , 甚至是经济损失 。 二是 , 手工提取表格信息往往是一个繁琐而耗时的过程 。 三是 , 在金融业和许多其他领域 , 表格往往是以非结构化的数字文件(如可移植文档格式(PDF)和图片格式)公开的 , 这些文件难以直接进行人工提取和处理 。
因此 , 高效地从文档中找到表格 , 同时有效提取表格中的数据与结构信息即表格识别 , 成为了一个亟待解决的问题 。 表格识别具体是指 , 将表格以图片的形式发送到电脑上 , 自动提取表格图片中的各类信息 , 同时将这些信息重新堆叠为新的文档 , 也称为表格文档重建 。 应用表格识别技术能够大大节省表格内容处理的时间 , 同时能够减少由人为因素产生的错误 。
近年来 , 国内外专家、学者针对这一问题进行了大量研究 , 引入图卷积神经网络(Graph convolutional network, GCN)、快速 R-CNN (Fast R-CNN) , 全卷积神经网络(Fully Convolutional Networks , FCN)、条件生成式对抗网络(Conditional Generative Adversarial Networks , CGAN)等深度学习方法和模型进行自动化的表格识别 。 表格识别也逐渐演变成了多个分支研究领域 , 包括:专门的数据集构建、表格检测、表格结构识别、表格检测与结构识别等 。
本文从近两年公开发表的文章中 , 包括国际文档分析与识别会议(International Conference on Document Analysis and Recognition , ICDAR)和arXiv平台的论文中精选了三篇 , 深入分析深度学习在表格识别任务中的应用 。 其中 , 第一篇文章重点关注表格识别任务的数据集构建 , 第二篇文章聚焦的是表格检测与结构识别任务 , 第三篇文章重点研究表格结构识别任务 。
一、GFTE: Graph-based Financial Table Extraction
科技资讯眺望|三篇论文,纵览深度学习在表格识别中的最新应用论文地址:
本文为 2020 年最新公布在 arxiv 上的一篇文章 。 本文的工作聚焦的是金融类的、中文表格数识别 。 此文的贡献主要包括两部分 。 第一 , 为了便于从非结构化数字文件中进行基于深度学习的表格抽取 , 本文发布了一个标准的中文数据集 FinTab , 它包含了 1600 多个不同类型的财务表格及其相应的 JSON 结构表示 。 第二 , 本文提出了一种新的基于图卷积神经网络(Graph Convolutional Network, GCN)的模型 GFTE 作为该表格识别数据集中的基线方法 。 GFTE 通过融合图像特征、位置特征和文本特征 , 能够对表格进行精确的边缘预测 , 取得了较好的效果 。 FinTab 数据集和 GFTE 方法都已经公布在 github 中: 。
首先 , 作者给出了一个经典的表格识别问题示例 。 图 1 给出了两个已有的表格内容提取方法的效果 , 即 Adobe Acrobat DC 和 Tabby[1] 。 在示例中的表格应用这两种方法都无法正确提取表格内容 。 同时 , 不难发现在跨单元格的情况下 , 由于这些单元格很可能携带表头的信息 , 表格识别经常会出现问题 。 因此 , 表格抽取方法的性能仍有待提高 , 尤其是在复杂的情况下对于表格的提取和理解至关重要 。


推荐阅读