文档智能:数字化转型的技术基石( 四 )


语义结构检测
DocBank 是 TableBank 数据集的扩展,其中除了表格之外还包括其他语义单元,用于文档布局分析 。在 DocBank 数据集中标注了以下语义结构:摘要、作者、标题、公式、图形、页脚、列表、段落、参考文献、节标题、表格和文章标题 。
之前的 TableBank 研究使用了 “fcolorbox” 命令标记表格 。但是,对于 DocBank 数据集,目标结构主要由文本组成,因此无法很好地应用 “fcolorbox” 命令 。所以此次使用 “color” 命令来改变这些语义结构的字体颜色,通过特定于结构的颜色来区分它们 。有两种类型的命令可以表示语义结构 。
一类是 LaTeX 命令的简单单词,后接反斜杠 。例如,LaTeX 文档中的节标题通常采用以下格式:

文档智能:数字化转型的技术基石

文章插图
 
另一类命令通常会启动一个环境 。例如,LaTeX 文档中的列表声明如下所示:
文档智能:数字化转型的技术基石

文章插图
 
begin{itemize} 命令启动一个环境,而 end{itemize} 命令结束该环境 。实际命令名称是 “begin” 命令和 “end” 命令的参数 。将 “color” 命令插入到语义结构的代码中(如下所示),然后重新编译 LaTeX 文档 。同时,为所有语义结构定义特定的颜色,使它们更好地被区分 。不同的结构命令要求将 “color” 命令放置在不同的位置才能生效 。最后,重新编译 LaTeX 文档来获取更新的 PDF 页面,其中每个目标结构的字体颜色已修改为特定于结构的颜色 。
文档智能:数字化转型的技术基石

文章插图
 
Token 级别文本标注
研究员们使用 PDFPlumber(基于 PDFMiner 构建的 PDF 解析器)来提取文本行和非文本元素,以及它们的边界框 。通过划分空格将文本行分词,由于只能从解析器中获得字符的边界框,因此 Token 的边界框定义是组成 Token 的单词中最左上角坐标和最右下角坐标的集合 。对于没有任何文本的元素(例如 PDF 文件中的图形和线条),则在 PDFMiner 中使用其类名和两个“#”符号将其组成一个特殊标记 。表示图形和线条的类名分别是 “LTFigure” 和 “LTLine” 。
PDFPlumber 可以从 PDF 文件中以 RGB 值的形式,提取字符和非文本元素的颜色 。通常,每个 Token 由具有相同颜色的字符组成 。如果不是的话,则使用第一个字符的颜色作为 Token 的颜色 。根据上述的颜色到结构的映射,可以确定 Token 级别的文本标签 。此外,语义结构可以同时包含文本和非文本元素 。例如,表格由单词和组成表格的线条构成 。在这项工作中,为了使模型在元素被切分之后能够尽可能地获取表格的布局,单词和线条都被标注为“表格”类 。
后处理
在某些情况下,一些 Token 天然具有多种颜色,并且无法通过 “ color” 命令进行转换,例如 PDF 文件中的超链接和引用,这些不变的颜色将导致标记的标注错误 。因此,为了更正这些 Token 的标签,还需要对 DocBank 数据集进行一些后处理步骤 。
通常,相同语义结构的 Token 将按阅读顺序组织在一起 。因此,一般在相同的语义结构中连续的标记都具有相同的标签 。当语义结构交替时,边界处相邻 Token 的标签将不一致 。研究员们会根据文档中的阅读顺序检查所有标签 。当单个 Token 的标签与其上文和下文的标签不同,但上文和下文的标签相同时,会将此 Token 的标签校正为与上下文标记相同 。通过手动检查,研究员们发现这些后处理步骤大大改善了DocBank 数据集的质量 。
实验数据统计
【文档智能:数字化转型的技术基石】DocBank 数据集具有12种语义单元,DocBank 中训练集、验证集和测试集的统计信息,显示了每个语义单元的数量(定义为包含该语义单元的文档页面数量),以及占总文档页面数量的百分比 。由于这些文档页面是随机抽取并进行划分的,因此语义单元在不同集合中的分布几乎是一致的 。
文档智能:数字化转型的技术基石

文章插图
DocBank 中训练、验证和测试集的语义结构统计信息
年份统计信息中展示了不同年份文档页面的分布,可以看到论文的数量是逐年增加的 。为了保持这种自然分布,研究员们随机抽取了不同年份的文档样本以构建 DocBank,而没有平衡不同年份的数量 。
文档智能:数字化转型的技术基石


推荐阅读