[人工智能]AI研习丨洪宇:信息抽取的常识与前沿( 二 )



[人工智能]AI研习丨洪宇:信息抽取的常识与前沿
本文插图

图 2 预训练模型纵览(统计截至 2019 年 12 月)
2 引神经事件抽取(Neural Event Detection)
事件抽取的目标是寻找句子中的事件触发词(比如attack)、论元(与触发词有关的名实体) , 以及论元角色(attacker还是victim) 。 其本质是词一级的分类任务 , 即将某个词或名实体划分到特定的事件类型、论元角色类型或普通的词类 。 因此 , 虽然输入模型的一条信息往往被指定为语句 , 但实际上事件抽取考虑的问题仍然是“这个词到底是什么” 。 所以 , 当看到ACE评测会议提供的大概40M左右(注:占磁盘空间的量)的秀珍数据集时(或者TAC-KBP提供的数据) , 请切勿低估其中的样本总量 , 原因在于每个词都是候选、都是样本 。
根据这一任务定义 , 似乎只需要认知词义就可以形成有效的抽取方法 。 如果确信这一点 , 大家可以尝试单一地使用图2中的不同预训练模型构建抽取系统(NIE中预训练模型性能的全面检验尚未被报道过) 。 但是 , 在本报告中并不提倡这一做法 , 原因包括两个方面 。 其一 , 预训练的词向量被预先定义为语义空间中的一个点 , 这一定义并不完美 , 我们在这个报告的详细讲解中 , 尝试证明 , 词义在语义空间中实际上应该对应一个迷你的子空间;其二 , 虽然经过大规模数据的训练 , 但所涉猎的领域仍然有局限性 , 词义可以因为领域或主题的异同 , 有着较大的变化 。 上述两点可以用于解释现有预训练模型需要微调的原因 。 总之 , 我们建议预训练模型仍然只能用于计算词义的初始化表示 , 并结合其他神经网络模型 , 在编码、计算和解码过程中 , 形成解决特定任务(比如NIE任务)的专门模型 。 在事件抽取中也是如此 , 一个词到底是不是触发词、触发了什么事件、关联于何种名实体、唤起了何种角色 , 都需要结合局部甚至全局上下文、主题分布和语用特征进行联合处理 。 下面将枚举几项有代表性的工作 , 包括CNN 和RNN的联合模型、传统策略与神经网络技术的过渡模型、生成对抗机制的应用模型 。 其他并未包含的模型请参考讲稿或宣讲PPT 。
2.1 CNN 与 RNN 的结合
正如我们所知 , CNN模型的提出来自于图像处理领域 , 因此本质上更适应图像的表示学习 , RNN因其循环计算 , 在处理诸如语言的符号序列方面有着不俗的表现 。 那么 , 将两者结合是否可行?Feng等在2016年利用CNN和RNN构建联合模型 , 并应用于事件抽取 。
图3给出了这一模型的总体架构 , 其核心操作集中在编码阶段 。 值得首先提示的是 , 这一模型并未执行双重编码(融合) , 而是完成了不同编码特征的合并(拼接) 。 其中 , 集成了长短期记忆单元的双向RNN(Bi-LSTM)对输入语句中的每个词进行了编码 , 理想情况下 , 这一编码过程能够将远距离依赖的上下文信息代入当前词义的表示学习;CNN则独立地执行了另一次编码 ,将当前词及其前后的局部上下文代入卷积特征的 表示学习 。 在此基础上 , 两次编码所得的特征被最终拼接在一起 , 形成当前词的分布式表示 , 并引入后续的解码过程(分类判别器) 。

[人工智能]AI研习丨洪宇:信息抽取的常识与前沿
本文插图

图 3 结合 CNN 与 RNN 的事件抽取模型
这一工作的特点是将RNN和CNN各自的优势均给与发挥的机会 , 前者借助语言的序列化属性一步步地、逐一地从上下文中摄取关联词信息 , 并将其用于当前词的词义表示;后者则较为刚性 , 将毗连的词结合为一个统一的特征 , 从而为短语级的语言单位形成语义表示 。 实验证明 , 这一方法在事件抽取中能够获得极高的准确度(P) 。 但遗憾的是 , 这一方法对每个词的语义表示增加了额外的约束 , 使得召回率较低 。


推荐阅读