|陈丹琦新作:关系抽取新SOTApipeline挫败joint


机器之心报道
编辑:魔王、小舟
端到端关系抽取涉及两个子任务:命名实体识别和关系抽取 。 近期研究多采用 joint 方式建模两个子任务 , 而陈丹琦等人新研究提出一种简单高效的 pipeline 方法 , 在多个基准上获得了新的 SOTA 结果 。
端到端关系抽取旨在识别命名实体 , 同时抽取其关系 。 近期研究大多采取 joint 方式建模这两项子任务 , 要么将二者统一在一个结构化预测网络中 , 要么通过共享表示进行多任务学习 。
而近期来自普林斯顿大学的 Zexuan Zhong、陈丹琦介绍了一种非常简单的方法 , 并在标准基准(ACE04、ACE05 和 SciERC)上取得了新的 SOTA 成绩 。 该方法基于两个独立的预训练编码器构建而成 , 只使用实体模型为关系模型提供输入特征 。 通过一系列精心检验 , 该研究验证了学习不同的语境表示对实体和关系的重要性 , 即在关系模型的输入层融合实体信息 , 并集成全局语境信息 。
此外 , 该研究还提出了这一方法的高效近似方法 , 只需要在推断时对两个编码器各执行一次 , 即可获得 8-16 倍的加速 , 同时准确率仅小幅下降 。
|陈丹琦新作:关系抽取新SOTApipeline挫败joint
本文插图

论文链接:https://arxiv.org/pdf/2010.12812.pdf
pipeline 方法重回巅峰?
从非结构化文本中抽取实体及其关系是信息抽取中的基本问题 。 这个问题可以分解为两个子任务:命名实体识别和关系抽取 。
早期研究采用 pipeline 方法:训练一个模型来抽取实体 , 另一个模型对实体之间的关系进行分类 。 而近期 , 端到端关系抽取任务已经成为联合建模子任务系统的天下 。 大家普遍认为 , 这种 joint 模型可以更好地捕获实体与关系之间的交互 , 并有助于缓解误差传播问题 。
然而 , 这一局面似乎被一项新研究打破 。 近期 , 普林斯顿大学 Zexuan Zhong 和陈丹琦提出了一种非常简单的方法 , 该方法可以学习基于深度预训练语言模型构建的两个编码器 , 这两个模型分别被称为实体模型和关系模型 。 它们是独立训练的 , 并且关系模型仅依赖实体模型作为输入特征 。 实体模型基于 span-level 表示而构建 , 关系模型则建立在给定 span 对的特定语境表示之上 。
虽然简单 , 但这一 pipeline 模型非常有效:在 3 个标准基准(ACE04、ACE05、SciERC)上 , 使用相同的预训练编码器 , 该模型优于此前所有的 joint 模型 。
为什么 pipeline 模型能实现如此优秀的性能呢?研究者进行了一系列分析 , 发现:
实体模型和关系模型的语境表示本质上捕获了不同的信息 , 因此共享其表示会损害性能;
在关系模型的输入层融合实体信息(边界和类型)至关重要;
在两个子任务中利用跨句(cross-sentence)信息是有效的;
更强大的预训练语言模型能够带来更多的性能收益 。
研究人员希望 , 这一模型能够引发人们重新思考联合训练在端到端关系抽取中的价值 。
不过 , 该方法存在一个缺陷:需要为每个实体对运行一次关系模型 。 为了缓解该问题 , 研究者提出一种新的有效替代方法 , 在推断时近似和批量处理不同组实体对的计算 。 该近似方法可以实现 8-16 倍的加速 , 而准确率的下降却很小(例如在 ACE05 上 F1 分数下降了 0.5-0.9%) 。 这使得该模型可以在实践中快速准确地应用 。
研究贡献
该研究的主要贡献有:
提出了一种非常简单有效的端到端关系抽取方法 , 该方法学习两个独立编码器 , 分别用于实体识别和关系抽取的 。 该模型在三个标准基准上达到了新 SOTA , 并在使用相同的预训练模型的时 , 性能超越了此前所有 joint 模型 。
该研究经过分析得出结论:对于实体和关系而言 , 相比于联合学习 , 学习不同的语境表示更加有效 。


推荐阅读