文档智能:数字化转型的技术基石

随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要 。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息 。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生 。
文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用 。例如:在金融领域,它可以实现财报分析和智能决策分析,为企业战略的制定和投资决策提供科学、系统的数据支撑;在医疗领域,它可以实现病例的数字化,提高诊断的精准度,并通过分析医学文献和病例的关联性,定位潜在的治疗方案 。
什么是文档智能?文档智能主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程 。

文档智能:数字化转型的技术基石

文章插图
文档智能技术
在过去的30年中,文档智能的发展大致经历了三个阶段 。90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理 。然而,传统基于规则的方法往往需要较大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人员开始采用基于统计学习的方法 。随着机器学习技术的发展和进步,基于大规模标注数据驱动的机器学习模型成为了文档智能的主流方法,它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学习不同特征的权重,以此来理解、分析文档的内容和布局 。
基于深度学习特别是预训练技术的文档智能模型,近几年受到越来越多的重视,大型科技公司纷纷推出相应的文档智能服务,包括微软、亚马逊、谷歌、IBM、阿里巴巴、百度等在内的很多公司在这个领域持续发力,对于许多传统行业的数字化转型提供了有力的支撑 。
随着各类实际业务和产品的出现,文档智能领域的基准数据集也百花齐放,这些基准数据集通常包含了基于自然语言文本或图像的标注信息,涵盖了文档布局分析、表格识别、信息抽取等重要的文档智能任务,它们的出现也推动了文档智能技术的进一步发展 。
文档智能:数字化转型的技术基石

文章插图
文档智能相关的基准数据集
传统的文档理解和分析技术往往基于人工定制的规则或少量标注数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且针对不同类别文档的分析迁移成本较高 。随着深度学习预训练技术的发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了一个全新的时代 。
微软亚洲研究院提出的 LayoutLM 便是一个全新的文档理解模型,通过引入预训练技术,同时利用文本布局的局部不变性特征,可有效地将未标注文档的信息迁移到下游任务中 。LayoutLM 的论文(论文链接:https://arxiv.org/abs/1912.13318)已被KDD 2020 接收,并将在下周举行的 KDD 大会上进行分享 。同时,为了解决文档理解领域现有的数据集标注规模小、标注粒度大、多模态信息缺失等缺陷,微软亚洲研究院的研究员们还提出了大规模表格识别数据集 TableBank和大规模文档布局标注数据集 DocBank(论文链接:https://arxiv.org/abs/2006.01038),利用弱监督的方法,构建了高质量的文档布局细粒度标注 。
LayoutLM:在预训练阶段实现文本和布局信息对齐大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果 。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息 。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Information)和视觉信息(Visual Information)进行建模,让模型在预训练阶段进行多模态对齐 。
在实际使用的过程中,LayoutLM 仅需要极少的标注数据即可达到行业领先的水平 。研究员们在三个不同类型的下游任务中进行了验证:表单理解(Form Understanding)、票据理解(Receipt Understanding),以及文档图像分类(Document Image Classification) 。实验结果表明,在预训练中引入的结构和视觉信息,能够有效地迁移到下游任务中,最终在三个下游任务中都取得了显著的准确率提升 。


推荐阅读