|陈丹琦新作：关系抽取新SOTApipeline挫败joint

机器之心报道
编辑：魔王、小舟
端到端关系抽取涉及两个子任务：命名实体识别和关系抽取。近期研究多采用 joint 方式建模两个子任务，而陈丹琦等人新研究提出一种简单高效的 pipeline 方法，在多个基准上获得了新的 SOTA 结果。
端到端关系抽取旨在识别命名实体，同时抽取其关系。近期研究大多采取 joint 方式建模这两项子任务，要么将二者统一在一个结构化预测网络中，要么通过共享表示进行多任务学习。
而近期来自普林斯顿大学的 Zexuan Zhong、陈丹琦介绍了一种非常简单的方法，并在标准基准（ACE04、ACE05 和 SciERC）上取得了新的 SOTA 成绩。该方法基于两个独立的预训练编码器构建而成，只使用实体模型为关系模型提供输入特征。通过一系列精心检验，该研究验证了学习不同的语境表示对实体和关系的重要性，即在关系模型的输入层融合实体信息，并集成全局语境信息。
此外，该研究还提出了这一方法的高效近似方法，只需要在推断时对两个编码器各执行一次，即可获得 8-16 倍的加速，同时准确率仅小幅下降。

本文插图

论文链接：https://arxiv.org/pdf/2010.12812.pdf
pipeline 方法重回巅峰？
从非结构化文本中抽取实体及其关系是信息抽取中的基本问题。这个问题可以分解为两个子任务：命名实体识别和关系抽取。
早期研究采用 pipeline 方法：训练一个模型来抽取实体，另一个模型对实体之间的关系进行分类。而近期，端到端关系抽取任务已经成为联合建模子任务系统的天下。大家普遍认为，这种 joint 模型可以更好地捕获实体与关系之间的交互，并有助于缓解误差传播问题。
然而，这一局面似乎被一项新研究打破。近期，普林斯顿大学 Zexuan Zhong 和陈丹琦提出了一种非常简单的方法，该方法可以学习基于深度预训练语言模型构建的两个编码器，这两个模型分别被称为实体模型和关系模型。它们是独立训练的，并且关系模型仅依赖实体模型作为输入特征。实体模型基于 span-level 表示而构建，关系模型则建立在给定 span 对的特定语境表示之上。
虽然简单，但这一 pipeline 模型非常有效：在 3 个标准基准（ACE04、ACE05、SciERC）上，使用相同的预训练编码器，该模型优于此前所有的 joint 模型。
为什么 pipeline 模型能实现如此优秀的性能呢？研究者进行了一系列分析，发现：
实体模型和关系模型的语境表示本质上捕获了不同的信息，因此共享其表示会损害性能；
在关系模型的输入层融合实体信息（边界和类型）至关重要；
在两个子任务中利用跨句（cross-sentence）信息是有效的；
更强大的预训练语言模型能够带来更多的性能收益。
研究人员希望，这一模型能够引发人们重新思考联合训练在端到端关系抽取中的价值。
不过，该方法存在一个缺陷：需要为每个实体对运行一次关系模型。为了缓解该问题，研究者提出一种新的有效替代方法，在推断时近似和批量处理不同组实体对的计算。该近似方法可以实现 8-16 倍的加速，而准确率的下降却很小（例如在 ACE05 上 F1 分数下降了 0.5-0.9%）。这使得该模型可以在实践中快速准确地应用。
研究贡献
该研究的主要贡献有：
提出了一种非常简单有效的端到端关系抽取方法，该方法学习两个独立编码器，分别用于实体识别和关系抽取的。该模型在三个标准基准上达到了新 SOTA ，并在使用相同的预训练模型的时，性能超越了此前所有 joint 模型。
该研究经过分析得出结论：对于实体和关系而言，相比于联合学习，学习不同的语境表示更加有效。

|陈丹琦新作：关系抽取新SOTApipeline挫败joint

推荐阅读

初做银行客户经理的童鞋曾哭诉：每天陪客户喝酒很痛苦。不知这是实情吗做女生有没有啥解决之道

外国大额钞票很常见，为何中国却不出？5万都出过，很多人没见过

哺乳动物|男人都是女人生的，那世界上第一个女人是怎么来的？

清明假期高速免费(清明节高速免费今天)

冬天养花怎么保温？学会几点，不担心过冬问题！

海贼资讯|爆笑段子：坐三轮车出去玩，看见后座上面有个钱包，去拿的时候发现绑在车上

杨子姗|王源谦虚表态被质疑？倪妮短发造型亮相？杨子姗离开杨天真了吗

『唐唐快看』iPhone因变卡被罚35亿！钱全部分给用户

##五月运势再上坡，赚钱轻松，事业不断晋升，百事顺畅的属相

【2019开学第一课】场外花絮：撒贝宁操作机甲大师机器人

中石油中原港务能源贸易结算中心项目落户西咸新区

韭菜炒鱼干韭菜和它是天生一对，简单一炒，鲜味十足，端上桌孩子们盯着抢！

达令家Native Beauty 复颜臻护氨基酸洁面膏，打破沉闷，让面容动起来

海豚加速攻略|死亡搁浅游戏问题如何解决？海豚加速器为你支招

小小茶杯大大哲学你看懂了吗

三国两晋南北朝|司马懿早已识破空城计，为何还是撤军？专家：不撤全军覆没

王者荣耀|巅峰赛乱杀，职业赛疲软！LGD的出现，透露出多少软辅的难堪？

中国新闻网|澳门核酸检测名额增至每天11000个

【】大选之前美国还会再打“伊朗牌”

央视网|视频丨易纲：保持金融总量适度，稳企业保就业