突破全注意力机制的局限,NLP版,芝麻街,新产品和新应用,Bird模型
萧箫 发自 凹非寺
这个在外界眼中看起来有点可爱的动漫小鸟 , 摇身一变 , 解决了BERT模型中的全注意力机制带来的 序列长度二次依赖限制 , 可以兼顾更长的上下文 。
文章图片
文章图片
△少了一位ELMo
来看看Big Bird实现了什么 。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型 , 例如BERT , 都是基于 Transformer作为特征抽取器的模型 , 但这种模型有它的局限性 , 核心之一就是 全注意力机制 。
这种机制会带来序列长度二次依赖限制 , 主要表现在存储方面 。
为了解决这个问题 , 团队提出了一种名为Big Bird的稀疏注意力机制 。
作为 更长序列上的Transformers , Big Bird采用稀疏注意力机制 , 将二次依赖降至线性 。
下面这张图片 , 展示了Big Bird所用的注意力机制模块构建 。
其中 , 白色的部分代表着注意力的空缺 。
图(a)表示r=2的随机注意力机制 , 图(b)表示w=3的局部注意力机制 , 图(c)表示g=2的全局注意力机制 , 图(d)则是前三者融合起来的Big Bird模型 。
文章图片
之所以提出这样的模型 , 是因为团队希望能在将二次依赖降至线性的同时 , Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标 。
从下图来看 , 无论是单一采用随机注意力机制、局部注意力机制 , 还是二者结合的方式 , 都没有将三者进行结合的效果好 。
也就是说 , 随机+局部+全局的注意力机制融合 , 最大程度上接近了BERT-base的各项指标 。
文章图片
不仅如此 , 这种稀疏注意力机制的一部分 , 还包括了采用O(1)的全局词例 (global token)例如CLS 。
这部分使得长程注意力开销从O(N√N)降至O(N)
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练 , 根据留出法评估 , BigBird-ETC的损失达到了最低 。
文章图片
从结果来看 , Big Bird在 问答任务中展示出的精度非常不错 。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果 , 可以看见 , 在各项数据及上 , BigBird的两个模型都展现出了更高的精度 。
文章图片
而在对模型进行微调后 , 可以看见 , BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。
推荐阅读
- 国际在线网站|全国重新禁止人群聚集活动,阿根廷新冠肺炎确诊病例突破20万例
- 半月谈|容错机制为何在一些地方成了“墙上画大饼”?
- 东方网|东方时评丨以新担当、新突破、新作为持续推动世界经济回暖
- 突破|新三板公开发行可“保荐+直投” 突破投资比例、时点限制
- 直播吧|坐轮椅离开球场,希望无碍!艾萨克突破膝盖受伤
- 黑龙江省|黑龙江省金控集团专项贷款担保突破百亿 支持中小微企业超2000户
- 海峡导报|台湾军费将提前突破4000亿元新台币,向美国军购大搞以武拒统
- 文汇|工业体系与人才机制“双驱动”,上海昂扬迈向全球影视创制中心
- 期汇金|开盘劲爆行情!金价跳涨逾10美元 一度突破1985
- 突破|原创比特币价格突破12000美元,如此高价的比特币到底能不能买?