李航等提出多粒度AMBERT模型,中文提升显著
选自arXiv
作者:Xinsong Zhang、李航
机器之心编译
编辑:杜伟、小舟
自谷歌 BERT 模型问世以来 , 各式各样的 BERT 变体模型在自然语言理解任务上大显身手 。 近日 , 字节跳动 AI 实验室李航等研究者提出了一种新型多粒度 BERT 模型 , 该模型在 CLUE 和 GLUE 任务上的性能超过了谷歌 BERT、Albert、XLNet 等 。
BERT 等预训练语言模型在自然语言理解(Natural Language Understanding, NLU)的许多任务中均表现出了卓越的性能 。
可以看到 , 模型中的 token 通常是细粒度的 , 对于像英语这样的语言 , token 是单词或子词;对于像中文这样的语言 , 则是单个汉字 。 例如在英语中有多个单词表达式构成的自然词汇单元 , 因此使用粗粒度标记化(tokenization)似乎也是合理的 。 实际上 , 细粒度和粗粒度标记化对于学习预训练语言模型都各有利弊 。
近日 , 字节跳动 Xinsong Zhang、李航两位研究者在细粒度和粗粒度标记化的基础上 , 提出了一种新的预训练语言模型 , 他们称之为 AMBERT(一种多粒度 BERT) 。 在构成上 , AMBERT 具有两个编码器 。
对于英文 , AMBERT 将单词序列(细粒度标记)和短语序列(粗粒度标记)作为标记化后的输入 , 其中使用一个编码器处理单词序列 , 另一个编码器处理短语序列 , 并利用两个编码器之间的共享参数 , 最终分别创建单词和短语的上下文表示序列 。
本文插图
论文链接:https://arxiv.org/pdf/2008.11869.pdf
研究团队已经在一些中文和英文的基准数据集(包括 CLUE、GLUE、SQuAD 和 RACE)上进行了实验 。 实验结果表明 , AMBERT 的性能几乎在所有情况下都优于现有的最佳性能模型 。 尤其是对于中文而言 , AMBERT的提升效果显著 。
本文插图
我们首先看一下中英文任务中细、粗粒度模型层的注意力图 。
下图 1 显示了适用于中英文句子的细粒度模型的首层注意力图 。 可以看到 , 某些 token 不恰当地出现在句子的其他 token 上 。
例如在英文句子中 , 「drawing」、「new」和「dog」分别对「portrait」、「york」和「food」这几个词有高注意力权重 , 但这是不合适的 。 而在中文句子中 , 汉字「拍」、「北」和「长」分别对「卖」「京」「市」有高注意力权重 , 这也是不合适的 。
本文插图
下图 2 显示了中英文相同句子粗粒度模型的首层注意力图 。
在英文句子中 , 单词组成的短语包括「drawing room」、「york minister」和「dog food」 , 前两个句子中的注意力是恰当的 , 但最后一个句子则因为不正确的标记化而出现了不恰当的注意力 。 类似地 , 在中文句子中 , 高注意力权重的「球拍(bat)」和「京城(capital)」都是合理的 , 但「市长(mayor)」不合理 。 但请注意:错误的标记化是不可避免的 。
本文插图
接下来详细解读 AMBERT 模型的细节和实验结果 。
AMBERT 模型
研究者在下图 3 中给出了 AMBERT 的整体框架 。 AMBERT 以文本作为输入 , 其中 , 文本要么是单个文档中的长序列 , 要么是两个不同文档中两个短序列的级联 。 接着在输入文本上进行标记化 , 以获得细、粗粒度的 token 序列 。
本文插图
推荐阅读
- 中国新闻网|团结香港基金就通识科提出13项建议 含取消七个等级评分方式
- 人民网|应对疫情影响 印尼提出5项金融机制改革措施
- 畅远数码|马云曾提出的4大预言,已经实现3个,网友:最后一个才是关键
- 央视新闻|国家公园体制试点进展顺利 正式设立国家公园的建议名单将年底提出
- 教师|关于县管校聘,教育部提出最新要求,这次大家可能争着去乡村了
- 米尔|发动机功率高达2000马力,配备全透明装甲,俄提出铰接式四代坦克
- 举人力量|遭对方父母反对,于是提出私奔的想法!,15岁的成龙和初恋谈恋爱
- 最热文|王阳明提出的“格物致知”究竟是什么意思呢?
- @CGTN|陆慷:美向数十个国家提出拘押孟晚舟要求,只有加拿大配合
- 信用卡|“全民负债”时代?逾期额度超900亿,欠钱不还央行提出“严惩”!