[人工智能]AI研习丨洪宇:信息抽取的常识与前沿( 三 )


2.2 传统与现代的有机结合
事件抽取研究特别讲究协作 , 在早期的研究中 , 人们已经发现触发词的正确识别 , 能够积极影响事件关联名实体(参与者)的确定 , 以及参与者角色的分类 。 我们在2011年也证明了名实体类型能够反向辅助判断触发词的分类 。 也因此 , Qi等 在2013年提出了联合抽取模型 , 也就是将触发词、参与者和角色等 , 作为一个整体进行抽取并互为辅助 。 这些早期的经验性研究有着较高的参考价值 。
Nguyen等在2016年首次利用神经网络完成了一套联合抽取模型 , 如图4所示 。 虽然看起来较为复杂 , 但模型中实际使用的神经网络仅仅为BiLSTM 。 特点在什么地方?实际上 , Nguyen等继承了联合模型的特性 , 将触发词利用Bi-LSTM进行编码后 , 又将这一编码结合名实体进行联合编码 , 在进行表示学习的过程中 , 同时进行触发词识别和名实体角色分类 。 因此 , 如果将触发词识别和名实体角色分类看成两个子任务 , Nguyen等的模型实际上形成了一套利用表示学习的多任务框架 。

[人工智能]AI研习丨洪宇:信息抽取的常识与前沿
本文插图

图 4 基于 Bi-LSTM 的事件联合抽取模型
2.3 对抗机制的应用
2018年 , 我们首次将生成对抗机制应用于事件抽取 。 生成对抗网络并未限定神经网络的类型 , 其实际上是构建在任何神经网络上的一种生成对抗机制 。 其中 , 我们可以用某一种神经网络构建生成器 , 使其具备对词语生成分布式表示的能力(编码能力);在此基础上 , 利用另一套神经网络建立判别器 , 使其具备对特定编码进行分类判断的能力(解码能力) 。 为了提高生成器与判别 器各自的能力 , 可以引入对抗机制 , 使生成器尽量制造虚假的词义表示 , 并同时训练判别器识别伪造的信息并作出正确分类的能力 。
训练过程中 , 生成对抗有一个平衡点 , 就是生成器和判别器都将在对抗的尾声达到一种局部最优 , 此时 , 无论前者的造假能力或是后者的鉴别能力都将达到极限 , 不再发生波动 。 我们考虑到这一因素 , 形成了合作与对抗的联合网络 , 如图5所示 。 其包含两个通道 , 每个通道内都设置了一个生成器和判别器 , 生成器都将用于词语的编码 , 判别器都被用于解码 。 区别在于 , 一个通道中的编码器专门学习生成可靠的词义表示 , 并辅助判别器作出最优的触发词分类 , 所以称为合作网络;另一个通道执行对抗 , 编码器尽量造假 , 判别器尽量对抗编码器进行有效分类 , 所以称为对抗网络 。 在同一个任务中 , 上述两个通道同时工作 , 并在期间将造假生成器产出的分布式向量提供给合作网络中的生成器 , 并用其作为参照 , 过滤噪声信息 。 从而 借助对抗生成获得尽量多的虚假信息 , 并使得合作通道有了可供修正的参照物 。 在实际操作中 , 我们将Bi-LSTM用于构建双通道中的生成器 , 并利用感知机形成判别器 。 这一模型在实验中体现出较好的性能 , 并在优化的过程中 , 确保了准确率和召回率相对的落差不会过大 。

[人工智能]AI研习丨洪宇:信息抽取的常识与前沿
本文插图

图 5 利用生成对抗的双通道模型
2.4 对抗与增强技术的结合
2019年 , Lu等在对抗的基础上 , 融入了模型增强技术 。 值得注意的是 , 我们并不认为这一研究中的增强技术隶属于规范的强化学习 , 但在思想上有着类似之处 。 总体上 , Lu等希望建立一种优化抽取模型的增强技术 , 核心思想是将模型的学习焦点暂时地脱离已知的触发词 , 更多地依赖词的上下文 。 例如将一个触发词(袭击)删除掉 , 其上下文中的伤亡、受害者等信息能够辅助模型猜测这个删除的触发词也许就是指向了袭击事件 。 如果这一思路得以实现 , 可能会从两个方面受益 。 其一 , 假设触发词是如此地少见或者说奇特(比如“鞭刑”) , 并且我们没有任何已知的知识用以训练事件抽取模型对其进行识别 , 那么 , 仅仅依赖上下文进行词义的猜测和触发词类型判别 , 就会发挥积极的作用 。 其二 , 因为上述优点 , 模型将变得较为健壮;换句话说 , 对于训练数据中的标注样本的依赖程度将有望降低 。


推荐阅读