[人工智能]AI研习丨洪宇:信息抽取的常识与前沿
本文插图
本文插图
信息抽取是自然语言处理(NLP)研究领域的常青树之一 ,是多项应用研究的重要基础 , 是与多学科研究交叉(如aspect term extraction)的一种技术 。 主要包括事件抽取(Event Extraction/ Nugget Detection)、关系抽取(Entity Relation Extraction)、属性 抽取(Aspect Term Extraction)、槽填充(Slot Filling)、名实体 识别(Named Entity Recognition)和实体链接(Entity Linking)这些门类 。 本报告仅针对其中的事件抽取进行回顾 , 包括基础神经网络结构 , 以及近几年相应领域的前沿研究进行概述 。
1 神经NLP基础
通常 , 我们在处理语言时 , 采用的基本手段可以用编码、计算和解码三板斧予以概括 。
编码的目的是将语言符号转化为方便计算的数值化表示(也叫做分布式表示) , 比如将词投影到向量空间 , 形成一个向量表示 。
计算的方式不善枚举 , 但在作用上可以粗略分为三种 , 第一种是对编码所得的数值化表示进行变形(深度学习过程中往往称为激活);第二种是演算(比如矩阵之间) , 借以实现信息融合、加权和交互等作用;第三种是参数求真 , 也就是训练中需要重点考虑的调参 , 包括数学模型本身的参数 , 以及人工设定的超参 。
解码的任务是将计算所得的数值化表示转化为任务相关的记号 。 值得注意的是 , 如果将上述解码记号定义为目标语言序列 , 那么编码和解码过程就非常类似于seq2seq的学习过程(比如机器翻译过程);但将上述记号定义为类型标记 , 那么编码和解码过程实际上等价于分类过程 。 所以 , 解码的目标比较灵活 , 往往根据具体任务的需要进行设定 。
将神经网络应用于NLP领域 , 也秉承了上述编码、计算和解码的基本处理思路 , 如果说有什么不同之处 , 无非是将这三板斧用神经网络予以实现而已 。 所以 , 大家最近最大的感受 , 似乎是NLP领域处处都“神经” 。 信息抽取也一样 , 因此也可以把这里的研究称为神经信息抽取(NIE) 。 图1中给出了许多神经网络架构 , 其中 , 以 卷积神经网络(CNN)和循环神经网路(RNN)为核心架构的NIE模型 , 在近十年的研究中陆续出现 。 除了直接将CNN和RNN在NIE上实现应用研究的案例 , 将许多有趣的元素融入其中的经验性研究也随之涌现 , 比如考虑借助框架语义(FrameNET)和AMR语义依存的神经表示学习策略 。 除此之外 , 注意力机制、对抗机制和交互机制也被陆续引入上述模型的扩展研究 , 并成为 使之得以增强的重要保证 。
本文插图
图 1 神经网络结构纵览(未包含注意力机制 对抗机制、交互机制和图卷积等模型)
近期 , 为了获得更好的表示学习方法 , 以Transformer为基础的预训练模型已经成为神经NLP的必备良药(见图2) , NIE的研究在2019年出现了结合BERT的相关工作 。 那么还有哪些除了强化学习尚未在NIE中全面铺开以外 , 神经网络的大部分模型在信息抽取(尤其是事件抽取)中几乎一一得以大显身手 。 举个系统的例子 。 比如 , 我们考虑用BERT的预训练模型进行词的初始化编 码 , 其中就有了Transformer的影子;再向其中进行模型的细化 , 就会领教多头注意力机制、残差网络层、MASK门控和任务驱动预训练等有趣的方法 。 当然 , 如果以BERT及其子模型为基础 , 可能大部分现有的预训练模型家族都可以很容易理解 。 并且 , 值得应用性研究人员注意的是 , 就2019年的研究进展而言 , 除了BERT , 大部分预训练模型家族成员(见图2)尚未在NIE领域得到应用与验证 。
推荐阅读
- 简明科学指南|微软用人工智能取代新闻工作者
- 新智元|人工智能领域很多引人注目的进展并不真实
- 千家网|人工智能在半导体市场的发展潜力及其意义
- 国防科技要闻|【每日动态】1000亿美元资助高科技产业/人工智能分析微观结构/下一代武器系统体系结构的评估标准
- 新智元|Science | 人工智能领域很多引人注目的进展并不真实
- 论文Science | 人工智能领域很多引人注目的进展并不真实
- 人工智能|云从科技集团股份有限公司具体经营项目申报新增机器人、人工智能等
- |倪光南:品牌产业数字化是人工智能发展的大趋势
- 科学出版社|陆培丽: 从统计世界走向人工智能
- 人工智能爱好者社区|等了整整12年!Linux QQ 终于更新了