萱草|端到端指代消解 Coreference Resolution( 二 )
模型第一部分 Span Representations 的结构图如下:
Span Representations
模型的输入是每一个单词的表征向量 , 表征向量包括两部分:固定的预训练词向量、对字母进行一维卷积得到的向量 。 作者认为区间的上下文信息和区间内部的信息都很重要 , 因此采用了 Bi-LSTM 编码区间内部和外部的信息 。 经过 Bi-LSTM 可以得到单词 t 双向的表征向量 , 下面公式中的 1 和 -1 分别代表 Bi-LSTM 的两个方向:
Bi-LSTM 的输出
作者采用了 Attention 机制计算区间内部的表征向量 , 区间 i 的表征向量计算公式如下:
计算区间内部表征向量
最终输出的区间表征向量为 g , 如下面的公式 , 公式中前两项 START 和 END 保存了区间外部的上下文信息 , 第三项保存了区间内部信息 , 最后一项 Φ(i) 是一个额外的特征 , 用于编码区间 i 的尺寸 。
区间表征向量
模型的第二部分负责计算区间是实体的概率以及两区间指代同一对象的概率 , 其结构如下:
Scoring Architecture
模型首先需要计算每一个区间是实体 (mention) 的得分 sm , 即图中的黑色节点 。 然后需要计算该区间和之前区间指代同一对象的得分 sa , 即图中白色节点 。 这两个得分的计算公式如下 , 公式中的 Φ(i,j) 是一些额外信息 (例如 speaker 和 genre) 的编码向量:
得分 sm 和 sa 计算公式
把这些相加就是区间 i 和区间 j 指代同一对象的得分:
区间 i,j 指代同一对象的得分
模型学习的复杂度为 O(T^4) , 为了减小复杂度 , 作者使用了一些优化方式:
- 区间的长度不超过 L
- 计算区间是一个实体分数 sm 后 , 只保留 λT 个得分最高的区间 , T 为文本长度
- 每个区间只考虑 K 个可能的先行词
和不同算法的对比
作者也尝试移除模型中部分特征 , 对比不同特征的重要性 , 结果如下表所示 。 其中 distance and width feature、Glove embeddings、spearker and genre metadata、head-finding attention 这些特征是比较重要的 , 移除这些特征性能会有比较大的下降 。
推荐阅读
- 萱草饿吗?来根今日油条
- 萱草|饿吗?来根今日油条
- 萱草|12标配A14,流畅运行英雄联盟,iPhone
- 萱草不限行、停车免费还补贴!主通道四川下“血本”挺这类汽车发展
- 萱草 加法庭明年2月,才会就本轮申诉作出裁决,孟晚舟引渡案听证结束
- 萱草|加法庭明年2月,才会就本轮申诉作出裁决,孟晚舟引渡案听证结束
- 萱草 李一男重出江湖,或与华为“再续前缘”?,背叛华为后
- 萱草|李一男重出江湖,或与华为“再续前缘”?,背叛华为后
- 萱草|43年过去了,为什么还是落后?,1977年中国已研发出光刻机
- 萱草 43年过去了,为什么还是落后?,1977年中国已研发出光刻机