|李航等提出多粒度AMBERT模型,中文提升显著( 二 )
本文插图
AMBERT 模型整体框架
具体来说 , AMBERT 具有两个编码器 , 分别用于处理细、粗粒度 token 序列 。 每个编码器具有与 BERT(Devlin 等人 , 2018)或 Transformer 编码器(Vaswani 等人 , 2017)完全相同的架构 。
此外 , 两个编码器在每个对应层共享相同的参数 , 但两者的嵌入参数不同 。 细粒度编码器在对应层上从细粒度 token 序列中生成上下文表示 , 而粗粒度编码器在对应层上从粗粒度 token 序列中生成上下文表示 。
最后 , AMBERT 分别输出细、粗粒度 token 的上下文表示序列 。
预训练
AMBERT 的预训练主要基于掩码语言建模(mask language modeling, MLM)进行 , 并从细、粗粒度两个层面展开 。 出于比较的目的 , 研究者在实验中只使用了预测下一个句子(next sentence prediction, NSP) 。
预训练过程被定义为以下函数的优化:
本文插图
微调
在分类任务上的 AMBERT 微调中 , 细、粗粒度编码器分别创建特定的 [CLS] 表示 , 并且这些表示都用于分类任务 。 微调过程被定义为以下函数的优化:
类似地 , 我们可以对跨度检测(span detection)任务上的 AMBERT 进行微调 , 其中细粒度 token 的表示与对应粗粒度 token 的表示实现了级联 。
替代模型
研究者还提出了 AMBERT 的两种替代模型 AMBERT-Combo 和 AMBERT-Hybrid , 它们也依赖于多粒度的标记化 。 研究者在实验部分也将三者进行了比较 。
实验
在实验部分 , 研究者分别在中英文基准数据集上 , 将 AMBERT 与细、粗粒度 BERT 基线以及 AMBERT-Combo 和 AMBERT-Hybrid 替代模型进行了比较 。
中文任务
下表 1 展示了分类任务的结果 。 可以看到 , AMBERT 将 BERT 基线方法的平均得分提升了约 1.0% , 并且其性能优于 AMBERT-Combo 和 AMBERT-Hybrid 替代模型 。
本文插图
下表 2 展示了机器阅读理解(Machine Reading Comprehensive, MRC)任务上的结果 。 可以看到 , AMBERT 将 BERT 基线的平均得分提升了约 3.0% 。
本文插图
此外 , 研究者还在 CLUE 排行榜上将 AMBERT 与当前最优模型进行了比较 , 结果如下表所示:
本文插图
英文任务
研究者在 GLUE 任务上将 AMBERT 与 BERT 模型以及 AMBERT-Combo、AMBERT-Hybrid 替代模型进行了比较 。 Google BERT 的结果出自原论文 , Our BERT 的结果由研究者获得 。
如下表 4 所示 , AMBERT 在大多数任务上的性能优于其他模型 , 并且 AMBERT 等多粒度模型能够取得优于单粒度模型的结果 。 在多粒度模型中 , AMBERT 在参数和计算量更少的情况下依然实现了最佳性能 。
本文插图
研究者在 SQuAD 任务上将 AMBERT 与其他 BERT 模型进行了比较 。 Google BERT 结果出自原论文或者由研究者使用官方代码运行获得 。
如下表 5 所示 , AMBERT 在 SQuAD 任务上显著优于 Google BERT 。 Our BERT (word)通常表现良好 , Our BERT (phrase)在跨度检测任务上表现糟糕 。
此外 , 在RACE任务上 , AMBERT在所有开发集和测试集的基线中表现最好 。
AMBERT是最佳的多粒度模型 。
推荐阅读
- 青年|桑籍拒绝白浅之后,连宋为何提出让夜华接替,原因有三蕴含小心机
- 科学|如何测量宇宙物质的总量?加州科学家提出新方法,测量结果很精确
- 科学|如果真有外星人,他们为何对人类不理不睬?科学家提出三种可能
- 前沿追踪|加拿大停止引渡孟女士?提出“释放条件”,我们必须同意
- 法院|中国社会科学院大学副校长林维谈互联网法院建设并提出建议
- 科学|外星人如何获取能量?科学家提出假设,在科学界得到半数人认同
- 中年|可编程的磁驱动软体机器人来了!Science 子刊:背后原理 19 世纪末提出
- 科学|地球内部别有洞天?有人提出:史前文明居住在此,观察人类活动?
- 高通|美国联邦通信委员提出上诉 要求再审高通反垄断案
- 全息投影|科学家提出新理论:宇宙很可能只是高级文明的全息投影