突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型

萧箫 发自 凹非寺
这个在外界眼中看起来有点可爱的动漫小鸟 , 摇身一变 , 解决了BERT模型中的全注意力机制带来的 序列长度二次依赖限制 , 可以兼顾更长的上下文 。
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
文章图片
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
文章图片
△少了一位ELMo
来看看Big Bird实现了什么 。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型 , 例如BERT , 都是基于 Transformer作为特征抽取器的模型 , 但这种模型有它的局限性 , 核心之一就是 全注意力机制 。
这种机制会带来序列长度二次依赖限制 , 主要表现在存储方面 。
为了解决这个问题 , 团队提出了一种名为Big Bird的稀疏注意力机制 。
作为 更长序列上的Transformers , Big Bird采用稀疏注意力机制 , 将二次依赖降至线性 。
下面这张图片 , 展示了Big Bird所用的注意力机制模块构建 。
其中 , 白色的部分代表着注意力的空缺 。
图(a)表示r=2的随机注意力机制 , 图(b)表示w=3的局部注意力机制 , 图(c)表示g=2的全局注意力机制 , 图(d)则是前三者融合起来的Big Bird模型 。
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
文章图片
之所以提出这样的模型 , 是因为团队希望能在将二次依赖降至线性的同时 , Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标 。
从下图来看 , 无论是单一采用随机注意力机制、局部注意力机制 , 还是二者结合的方式 , 都没有将三者进行结合的效果好 。
也就是说 , 随机+局部+全局的注意力机制融合 , 最大程度上接近了BERT-base的各项指标 。
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
文章图片
不仅如此 , 这种稀疏注意力机制的一部分 , 还包括了采用O(1)的全局词例 (global token)例如CLS 。
这部分使得长程注意力开销从O(N√N)降至O(N)
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练 , 根据留出法评估 , BigBird-ETC的损失达到了最低 。
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
文章图片
从结果来看 , Big Bird在 问答任务中展示出的精度非常不错 。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果 , 可以看见 , 在各项数据及上 , BigBird的两个模型都展现出了更高的精度 。
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
文章图片
而在对模型进行微调后 , 可以看见 , BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。
突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型


推荐阅读