|李航等提出多粒度AMBERT模型，中文提升显著( 二 )

本文插图

AMBERT 模型整体框架
具体来说， AMBERT 具有两个编码器，分别用于处理细、粗粒度 token 序列。每个编码器具有与 BERT（Devlin 等人， 2018）或 Transformer 编码器（Vaswani 等人， 2017）完全相同的架构。
此外，两个编码器在每个对应层共享相同的参数，但两者的嵌入参数不同。细粒度编码器在对应层上从细粒度 token 序列中生成上下文表示，而粗粒度编码器在对应层上从粗粒度 token 序列中生成上下文表示。
最后， AMBERT 分别输出细、粗粒度 token 的上下文表示序列。
预训练
AMBERT 的预训练主要基于掩码语言建模（mask language modeling, MLM）进行，并从细、粗粒度两个层面展开。出于比较的目的，研究者在实验中只使用了预测下一个句子（next sentence prediction, NSP）。
预训练过程被定义为以下函数的优化：

本文插图

微调
在分类任务上的 AMBERT 微调中，细、粗粒度编码器分别创建特定的 [CLS] 表示，并且这些表示都用于分类任务。微调过程被定义为以下函数的优化：
类似地，我们可以对跨度检测（span detection）任务上的 AMBERT 进行微调，其中细粒度 token 的表示与对应粗粒度 token 的表示实现了级联。
替代模型
研究者还提出了 AMBERT 的两种替代模型 AMBERT-Combo 和 AMBERT-Hybrid ，它们也依赖于多粒度的标记化。研究者在实验部分也将三者进行了比较。
实验
在实验部分，研究者分别在中英文基准数据集上，将 AMBERT 与细、粗粒度 BERT 基线以及 AMBERT-Combo 和 AMBERT-Hybrid 替代模型进行了比较。
中文任务
下表 1 展示了分类任务的结果。可以看到， AMBERT 将 BERT 基线方法的平均得分提升了约 1.0% ，并且其性能优于 AMBERT-Combo 和 AMBERT-Hybrid 替代模型。

本文插图

下表 2 展示了机器阅读理解（Machine Reading Comprehensive, MRC）任务上的结果。可以看到， AMBERT 将 BERT 基线的平均得分提升了约 3.0% 。

本文插图

此外，研究者还在 CLUE 排行榜上将 AMBERT 与当前最优模型进行了比较，结果如下表所示：

本文插图

英文任务
研究者在 GLUE 任务上将 AMBERT 与 BERT 模型以及 AMBERT-Combo、AMBERT-Hybrid 替代模型进行了比较。 Google BERT 的结果出自原论文， Our BERT 的结果由研究者获得。
如下表 4 所示， AMBERT 在大多数任务上的性能优于其他模型，并且 AMBERT 等多粒度模型能够取得优于单粒度模型的结果。在多粒度模型中， AMBERT 在参数和计算量更少的情况下依然实现了最佳性能。

本文插图

研究者在 SQuAD 任务上将 AMBERT 与其他 BERT 模型进行了比较。 Google BERT 结果出自原论文或者由研究者使用官方代码运行获得。
如下表 5 所示， AMBERT 在 SQuAD 任务上显著优于 Google BERT 。 Our BERT (word)通常表现良好， Our BERT (phrase)在跨度检测任务上表现糟糕。
此外，在RACE任务上， AMBERT在所有开发集和测试集的基线中表现最好。
AMBERT是最佳的多粒度模型。

|李航等提出多粒度AMBERT模型，中文提升显著( 二 )

推荐阅读

公新翰@但最伤的是另一个决策！，QG四连跪的主要原因找到？没买最初很伤

之夏|博山自闭症疗育中心获第四届“博山之夏”全民才艺大赛“特殊表演奖”

[数码小王]Pro有点像，还是双打孔曲面屏！荣耀30 Pro真机曝光，跟华为P40

熟普洱的保存方法熟普洱保存和储藏方法

宝宝躺着吃奶(躺着给宝宝喂奶好么？)

大洋网|海关归类服务为企业年减关税逾千万元

海外网|8月30日全球疫情观察：至少16国日增确诊超千例印度单日确诊再现最大增幅

提亮嫩肤秘方大公开，教你一键美白上岸

默叔说香水|库尔吉安乌木丝缎心情教科书式乌木玫瑰香

首席生活家开箱体验，智能方便：美的嵌入式蒸烤一体机BS5055W

如何自己办理宠物托运宠物托运手续

中国新闻网|浙江龙泉发现国家二级保护动物阳彩臂金龟

天猫店新店考核不通过天猫店考核期指标没有达到怎么办

『车家号』95 km，加量不加价的宝马530Le增重后如何延续操控，纯电续航升至

女性冬季如何饮食养生？几款专属女性的养生食物

黑喵游妮|阴阳师8月19日体验服更新总结为崽而战斗技中午时长变成2小时

咽喉干燥可喝西洋参麦冬茶

历史|美股三连跌科技股领跌大盘

前无后有|工资太低而消费太低，该怎么办？，职场中的年轻人

生煎包|松江超嗲的生煎包大全，哪家是你最爱吃的？