|李航等提出多粒度AMBERT模型,中文提升显著( 二 )


本文插图

AMBERT 模型整体框架
具体来说 , AMBERT 具有两个编码器 , 分别用于处理细、粗粒度 token 序列 。 每个编码器具有与 BERT(Devlin 等人 , 2018)或 Transformer 编码器(Vaswani 等人 , 2017)完全相同的架构 。
此外 , 两个编码器在每个对应层共享相同的参数 , 但两者的嵌入参数不同 。 细粒度编码器在对应层上从细粒度 token 序列中生成上下文表示 , 而粗粒度编码器在对应层上从粗粒度 token 序列中生成上下文表示 。
最后 , AMBERT 分别输出细、粗粒度 token 的上下文表示序列 。
预训练
AMBERT 的预训练主要基于掩码语言建模(mask language modeling, MLM)进行 , 并从细、粗粒度两个层面展开 。 出于比较的目的 , 研究者在实验中只使用了预测下一个句子(next sentence prediction, NSP) 。
预训练过程被定义为以下函数的优化:
|李航等提出多粒度AMBERT模型,中文提升显著
本文插图

微调
在分类任务上的 AMBERT 微调中 , 细、粗粒度编码器分别创建特定的 [CLS] 表示 , 并且这些表示都用于分类任务 。 微调过程被定义为以下函数的优化:
类似地 , 我们可以对跨度检测(span detection)任务上的 AMBERT 进行微调 , 其中细粒度 token 的表示与对应粗粒度 token 的表示实现了级联 。
替代模型
研究者还提出了 AMBERT 的两种替代模型 AMBERT-Combo 和 AMBERT-Hybrid , 它们也依赖于多粒度的标记化 。 研究者在实验部分也将三者进行了比较 。
实验
在实验部分 , 研究者分别在中英文基准数据集上 , 将 AMBERT 与细、粗粒度 BERT 基线以及 AMBERT-Combo 和 AMBERT-Hybrid 替代模型进行了比较 。
中文任务
下表 1 展示了分类任务的结果 。 可以看到 , AMBERT 将 BERT 基线方法的平均得分提升了约 1.0% , 并且其性能优于 AMBERT-Combo 和 AMBERT-Hybrid 替代模型 。
|李航等提出多粒度AMBERT模型,中文提升显著
本文插图

下表 2 展示了机器阅读理解(Machine Reading Comprehensive, MRC)任务上的结果 。 可以看到 , AMBERT 将 BERT 基线的平均得分提升了约 3.0% 。
|李航等提出多粒度AMBERT模型,中文提升显著
本文插图

此外 , 研究者还在 CLUE 排行榜上将 AMBERT 与当前最优模型进行了比较 , 结果如下表所示:
|李航等提出多粒度AMBERT模型,中文提升显著
本文插图

英文任务
研究者在 GLUE 任务上将 AMBERT 与 BERT 模型以及 AMBERT-Combo、AMBERT-Hybrid 替代模型进行了比较 。 Google BERT 的结果出自原论文 , Our BERT 的结果由研究者获得 。
如下表 4 所示 , AMBERT 在大多数任务上的性能优于其他模型 , 并且 AMBERT 等多粒度模型能够取得优于单粒度模型的结果 。 在多粒度模型中 , AMBERT 在参数和计算量更少的情况下依然实现了最佳性能 。
|李航等提出多粒度AMBERT模型,中文提升显著
本文插图

研究者在 SQuAD 任务上将 AMBERT 与其他 BERT 模型进行了比较 。 Google BERT 结果出自原论文或者由研究者使用官方代码运行获得 。
如下表 5 所示 , AMBERT 在 SQuAD 任务上显著优于 Google BERT 。 Our BERT (word)通常表现良好 , Our BERT (phrase)在跨度检测任务上表现糟糕 。
此外 , 在RACE任务上 , AMBERT在所有开发集和测试集的基线中表现最好 。
AMBERT是最佳的多粒度模型 。
|李航等提出多粒度AMBERT模型,中文提升显著


推荐阅读