近期必读 ICLR 2021 模型压缩&预训练相关论文本文使用的方法是基于NAS架构

本文推荐几篇近期必读的ICLR2021模型压缩&预训练相关的7篇论文。
1模型压缩
1、《Task-AgnosticandAdaptive-SizeBERTCompression》
本文的目标是通过压缩可以得到模型对不同大小和延迟的限制下的小模型；另外压缩后的模型是任务不可知（taskagnostic）即对所有的下游任务都是通用的。
为了实现这个目标，本文使用的方法是基于NAS架构搜索的方法，由于待搜索的空间非常大，对于预训练任务难度较大，本文提供了3种策略来优化。

文章图片
论文链接:https://openreview.net/forum?id=wZ4yWvQ_g2y&noteId=wZ4yWvQ_g2y
2、《Data-AwareLow-RankCompressionforLargeNLPModels》
本文的目标是对BERT模型中最为占用时间部分，即矩阵乘法进行优化。基于一个观察，权重矩阵本身并不是低秩矩阵，但是每一层的表示（输出）却是处于低维空间。基于这个观察本文提出了DRONE方法，通过最小化表示输出的误差而不是单纯的权重矩阵的误差，来对权重矩阵进行分解。

文章图片
【近期必读 ICLR 2021 模型压缩&预训练相关论文】论文链接：https://openreview.net/forum?id=_sSHg203jSu
3、《SpeedingupDeepLearningTrainingbySharingWeightsandthenUnsharing》
本文的目标是解决深度模型中提升模型深度带来的计算复杂度提高的问题，主要针对模型中存在多个重复结构的情况，本文中则是以BERT中的transformer结构为例。本文采用的方法是首先共享所有重复结构的权重，然后达到一定条件下解除共享。

文章图片
论文链接：https://openreview.net/forum?id=jz7tDvX6XYR
4、《Dact-BERT:IncreasingtheEfficiencyandInterpretabilityofBERTbyUsingAdaptiveComputationTime》
本文的目标是缩短大模型的预测阶段的耗时。本文以BERT为基础，在BERT模型中加了一个DACT结构，最终学习出来在预测节点所需要的模型深度（numbertoftransformersblocks）。
DACT结构原本是用于在视觉推理任务中，目标是来选择一个合适的推理的中间steps 。本文将DACT结构融入BERT的transformerblock中间，直接学习什么时候就可以达到预测的标准，那么在预测阶段只需要这部分子结构就可以完成预测的任务。

文章图片
论文链接：https://openreview.net/forum?id=wKfXaxPist
2预训练
1、《DeBERTa:DECODING-ENHANCEDBERTWITHDISENTANGLEDATTENTION》
本文对现有的BERT模型做了改进。一组词的Attention不光取决于内容，还和它们的相对位置有关（比如deeplearning挨在一起时的依赖关系比不在一起时要强）。解决预训练和精调的不匹配问题（精调时没有MASK）。
文中提出了两类策略， DisentangledAttention：增加计算“位置-内容”和“内容-位置”注意力。 EnhancedMaskDecoder：用EMD来代替原BERT的SoftMax层预测遮盖的Token 。

文章图片
论文链接：https://openreview.net/forum?id=XPZIaotutsD
2、《SCoRe:Pre-TrainingforContextRepresentationinConversationalSemanticParsing》
为了将自然语言对话转为成形式化语言， CSP系统需要在描述对话的多回合动态变化的同时，对非结构化语言和结构化本体之间的关系进行建模。本文提出了一种新的用于CSP任务的训练方法，旨在获得表示以捕捉对话流与结构化上下文的一致性。

文章图片
论文链接：https://openreview.net/forum?id=5ip8nV7F4Qn
3、《K-PLUG:KNOWLEDGE-INJECTEDPRE-TRAINEDLANGUAGEMODELFORNATURALLANGUAGEUNDERSTANDINGANDGENERATION》
虽然PLM已经在众多NLP任务中证明了有效性，但他们中的大多数并没有明确地学习特定领域的知识。
在本文中，我们提出了K-PLUG ，一种基于编解码转换器的知识注入的预训练语言模型，它既适用于自然语言理解任务，也适用于生成任务。
具体来说，我们提出了五个具有知识意识的自我监督的预训练目标，以实现特定领域的知识学习。

文章图片
论文链接：https://openreview.net/forum?id=5WcLI0e3cAY

近期必读 ICLR 2021 模型压缩&预训练相关论文

推荐阅读

空姐是不是要求很漂亮-,当空姐一定要漂亮的吗-

姜素拉|韩国又一位女神宣布结婚，老公身份显神秘，曾瘦身52斤闯进娱乐圈

嘉丽侃篮球|太阳豪取复赛6连胜，新星连续2场爆发，布克35分，27分大胜雷霆

李国庆行拘期满后首发声|李国庆行拘期满后首发声：我立誓接管当当

【苹果】苹果外包钟爱中国大陆？库克：我们只挑最好的

定制笔记本写什么比较好?定制笔记本尺寸

网易娱乐|范世錡《青青子衿》嘴炮技能MAX 情感真挚引共鸣

抓饭体育平台|小詹姆斯利拉德点赞詹娜内衣照，这谁顶得住？

张大仙|阿泰碰瓷张大仙？声称人气已经排名第一，看到数据粉丝笑了！

大气的公众号名字文艺

浚县|危险！媒体：卫河鹤壁段决堤，有村民被围在河堤上

中国新闻网|第26届上海电视节落幕《破冰行动》获最佳中国电视剧奖

聊聊汽车吧|温柔漂亮有魅力，堪称万人迷，让男人爱得死去活来的三大生肖女

医用酒精和普通酒精一样吗医用酒精有区别吗

『鲜闻说』她穿上却短了一大截！，有种“大长腿”叫关晓彤！别人穿校服裤都嫌太长

太保拟7亿成立金融科技公司，保险系科技公司崛起

微笑的娱乐小屋|推荐现言女主文，人间芭比女配音演员VS斯文高冷酒店大亨！

【维生素】备孕时一定要补充的营养否侧后悔莫及！

唐艺昕|张一山版韦小宝来了！唐艺昕演建宁公主，网友：角色形象神还原

趣味星座社■旧爱难放下，真情难抵挡，喜鹊牵缘，与旧爱再相守的星座，7天后

近期必读 ICLR 2021 模型压缩&amp;预训练相关论文

推荐阅读

近期必读 ICLR 2021 模型压缩&预训练相关论文