突破全注意力机制的局限，NLP版，芝麻街，新产品和新应用，Bird模型萧箫发自凹非寺这个在外界眼中看起来有

萧箫发自凹非寺
这个在外界眼中看起来有点可爱的动漫小鸟，摇身一变，解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制，可以兼顾更长的上下文。

文章图片

文章图片
△少了一位ELMo
来看看Big Bird实现了什么。
突破全注意力机制的局限
在NLP模块表现最好的几种深度学习模型，例如BERT ，都是基于 Transformer作为特征抽取器的模型，但这种模型有它的局限性，核心之一就是全注意力机制。
这种机制会带来序列长度二次依赖限制，主要表现在存储方面。
为了解决这个问题，团队提出了一种名为Big Bird的稀疏注意力机制。
作为更长序列上的Transformers ， Big Bird采用稀疏注意力机制，将二次依赖降至线性。
下面这张图片，展示了Big Bird所用的注意力机制模块构建。
其中，白色的部分代表着注意力的空缺。
图（a）表示r=2的随机注意力机制，图（b）表示w=3的局部注意力机制，图（c）表示g=2的全局注意力机制，图（d）则是前三者融合起来的Big Bird模型。

文章图片
之所以提出这样的模型，是因为团队希望能在将二次依赖降至线性的同时， Big Bird的模型还能最大程度上接近并保持BERT模型的各项指标。
从下图来看，无论是单一采用随机注意力机制、局部注意力机制，还是二者结合的方式，都没有将三者进行结合的效果好。
也就是说，随机+局部+全局的注意力机制融合，最大程度上接近了BERT-base的各项指标。

文章图片
不仅如此，这种稀疏注意力机制的一部分，还包括了采用O（1）的全局词例（global token）例如CLS 。
这部分使得长程注意力开销从O（N√N）降至O（N）
NLP问答和摘要任务中超越了SOTA
模型采用Books、CC-News、Stories和Wikipedia几种数据集对四类模型进行了训练，根据留出法评估， BigBird-ETC的损失达到了最低。

文章图片
从结果来看， Big Bird在问答任务中展示出的精度非常不错。
下图是Big Bird与RoBERTa和Longformer对比所展现出来的精度效果，可以看见，在各项数据及上， BigBird的两个模型都展现出了更高的精度。

文章图片
而在对模型进行微调后，可以看见， BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA 。

突破全注意力机制的局限，NLP版，芝麻街，新产品和新应用，Bird模型

推荐阅读

揭开杨树浦路消防瞭望塔之谜，旋转式博物馆上藏着一条百年“天梯”？

「庾澄庆外甥女」庾澄庆外甥女再次手撕罗志祥是“渣男”

操作|三国杀AI孙坚到底有多坑？摸1弃2搞队友，只为加大活动难度？

今年首个暴雨橙色预警！湖北江西安徽等地局地有特大暴雨

何超琼大会落幕合影留念，珍藏庄严时刻

蛋蛋懂车|斑马线不礼让行人或被抓拍，黄埔｜@云埔车主：请注意！下周一起

俊华星命师|今年之后被幸福围绕的生肖，苦尽甘来

小懂说汽车|中期改款，配置全面升级，价格微调，2021款奥迪A6L新车上市

海峡军情|西澳大利亚州沉不住气了，出“妙招”吸引中国游客，果然

权志龙的这个发型叫啥

刘雯|井柏然与刘雯秘密约会，没想到被贼跟踪散布了消息

洪某洋|一场车祸致三警察身亡，肇事司机潜逃18年，落网时欲喝农药轻生

崆峒养生汇说说“口苦、口臭、口淡”那些事儿

「Wind」它们到底怎么做对冲的？，对冲基金这个月亏肿了

怎样利用网络交外国朋友

跌价|海澜之家上半年净利腰斩存货82亿元研发仅占营收0.29%

楼兰家居堡■也是结婚困难户，现在胖到走路需要人扶，张惠妹是恋爱高手

茶叶以季节分类,茶季节分类

尿不湿的戴法技巧戴尿不湿正确方法

“这或许是美国科学政策史上最可耻的时刻”