萱草|端到端指代消解 Coreference Resolution( 二 )


模型第一部分 Span Representations 的结构图如下:
萱草|端到端指代消解 Coreference ResolutionSpan Representations
模型的输入是每一个单词的表征向量 , 表征向量包括两部分:固定的预训练词向量、对字母进行一维卷积得到的向量 。 作者认为区间的上下文信息和区间内部的信息都很重要 , 因此采用了 Bi-LSTM 编码区间内部和外部的信息 。 经过 Bi-LSTM 可以得到单词 t 双向的表征向量 , 下面公式中的 1 和 -1 分别代表 Bi-LSTM 的两个方向:
萱草|端到端指代消解 Coreference ResolutionBi-LSTM 的输出
作者采用了 Attention 机制计算区间内部的表征向量 , 区间 i 的表征向量计算公式如下:
萱草|端到端指代消解 Coreference Resolution计算区间内部表征向量
最终输出的区间表征向量为 g , 如下面的公式 , 公式中前两项 START 和 END 保存了区间外部的上下文信息 , 第三项保存了区间内部信息 , 最后一项 Φ(i) 是一个额外的特征 , 用于编码区间 i 的尺寸 。
萱草|端到端指代消解 Coreference Resolution区间表征向量
模型的第二部分负责计算区间是实体的概率以及两区间指代同一对象的概率 , 其结构如下:
萱草|端到端指代消解 Coreference ResolutionScoring Architecture
模型首先需要计算每一个区间是实体 (mention) 的得分 sm , 即图中的黑色节点 。 然后需要计算该区间和之前区间指代同一对象的得分 sa , 即图中白色节点 。 这两个得分的计算公式如下 , 公式中的 Φ(i,j) 是一些额外信息 (例如 speaker 和 genre) 的编码向量:
萱草|端到端指代消解 Coreference Resolution得分 sm 和 sa 计算公式
把这些相加就是区间 i 和区间 j 指代同一对象的得分:
萱草|端到端指代消解 Coreference Resolution区间 i,j 指代同一对象的得分
模型学习的复杂度为 O(T^4) , 为了减小复杂度 , 作者使用了一些优化方式:

  • 区间的长度不超过 L
  • 计算区间是一个实体分数 sm 后 , 只保留 λT 个得分最高的区间 , T 为文本长度
  • 每个区间只考虑 K 个可能的先行词
3.实验结果作者和之前的指代消解算法进行了对比 , 结果如下 , 可以看到新方法的效果最好 。 ensemble 是作者结合了 5 个用不同的初始化训练的模型 , single 是单一模型 。
萱草|端到端指代消解 Coreference Resolution和不同算法的对比
作者也尝试移除模型中部分特征 , 对比不同特征的重要性 , 结果如下表所示 。 其中 distance and width feature、Glove embeddings、spearker and genre metadata、head-finding attention 这些特征是比较重要的 , 移除这些特征性能会有比较大的下降 。


推荐阅读