「变形金刚」ICLR 2020上,Transformers 有何新动向?( 二 )
- 使用可逆残差层取代标准残差层 , 在训练阶段只需要存储一层的激活结果而不是N层(N是网络层数)(消除了网络中N的倍数) 。
- 分离前馈全连接层的激活部分 , 分区块进行处理 , 消除对内存的消耗 。
- 使用局部敏感哈希(Local-Sensitive Hashing, LSH)技术把计算attention部分的复杂度O(L2)(主要来自于点乘)从降至O(L log L)(其中L代表序列长度) 。
3、CPU 上的 Transformer
本文插图
论文:Lite Transformer with Long-Short Range Attention (LSRA)
链接:https://openreview.net/pdf?id=ByeMPlHKPH
这篇文章针对Transformer 在mobile device(CPU)上做了改进 。
Transformer 要实现高性能 , 需要大量计算 , 这显然不适用于受硬件限制的移动设备 。 在这篇文章中 , 作者提出了一种高效的移动端的轻量级的 Transformer , 以此来促进在边缘设备上部署NLP应用程序 。
本文插图
本文插图
Source: Lite Transformer with Long-Short Range Attention (LSRA)
关键点是 , 作者提出了一个长短距离注意力(Long-Short Range Attention , LSRA) , 其中一组heads专门(通过卷积)对局部上下文进行建模 , 另一组heads(通过注意力)对长程关系进行建模 。
这个模型虽然在最终结果上与那些大型Transformer不可比 , 但1)其研究动机;2)其创新性的架构 , 值得我们重点关注 。
目前这篇文章已经开源:https://github.com/mit-han-lab/lite-transformer
二、训练方法的创新 Transformer架构重要 , 训练方法也同样 。 在今年的ICLR上出现了不少令人耳目一新的训练方法 。
4、ELECTRA:GAN的巧妙运用
本文插图
【「变形金刚」ICLR 2020上,Transformers 有何新动向?】
论文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
链接:https://openreview.net/pdf?id=r1xMH1BtvB
这是斯坦福SAIL实验室Manning组与谷歌合作的工作 。 ELECTRA的全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately 。 网传这是2019年最佳NLP预训练模型 。
在去年11月份 , ELECTRA一经发布 , 迅速火爆整个NLP圈 , 其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10 , 性能却依然能与BERT、RoBERTa等模型相媲美 。
在前不久 , 谷歌也开源了ELECTRA , 并发布了预训练模型 。 中文社区 , 哈工大讯飞联合实验室(HFL)基于ELECTRA开源代码 , 也发布了中文版的 ELECTRA 预训练模型 。 https://github.com/ymcui/Chinese-ELECTRA
感受一下ELECTRA的效果:
本文插图
Source: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ELECTRA能够取得如此优异结果 , 基于其新颖的预训练框架 , 其中包含两个部分:Generator和Discriminator 。
本文插图
Generator: 一个小的MLM , 在[MASK]的位置预测原来的词 。 Generator将用来把输入文本做部分词的替换 。
推荐阅读
- 有得比热销数码资讯|华硕 VivoBook14 2020款评价好吗,配置怎么样
- 互联网的一些事|QuestMobile:2020 移动互联网人均使用时长同比增长 12.9%
- Vinter|2020年6月5G手机选购指南(3000 - 4000元篇)
- |小米创始团队隐退,经理人组“复仇者联盟”?
- 出行2020没有一辆电动车就OUT了! 京东618仅1小时小刀电动车新品销量超600%
- 壹观察|从最强到更强手机影像,华为P40 Pro+做了哪些加法?地表最强影像旗舰,再进一步!2020全球旗舰手机新高度
- CSDN|牛!2020年,这项技术将获得99000000000元人民币“国家领投”!
- 语言最红语言Python跌落榜三,Rust最受喜爱!Stack Overflow 2020报告出炉
- 科技资讯室|618购机攻略新鲜出炉,高性能手机首选iQOO 3变形金刚限量版
- zol中关村在线|联想拯救者Y9000K 2020上架预售 搭英特尔8核处理器