薄情先生|会怎么样？，把Transformer加深几倍论文地址：

项目地址：
1预备知识
MHA：
2方法
越深层的网络，越难训练。因为训练网络时，容易出现梯度消失问题，即使layernormalization缓解了此问题，但是依然存在。在机器翻译中，解码器和编码器下层之间缺少梯度流动尤其成问题。文献2提出将交换
Pre-LN：
将Transofmer的encoder增加到30层，并且改变了上一层信息传递到下一层的方式，该方法也被96层的GPT-3采用。
论文在不改变Transformer结构的基础,加深模型。主要参考了论文作者自己的一篇文献3：该文献指出， Pre-LN比Post-LN训练更加稳定，但是Post-LN比Pre-LN有更大的潜力达到更好的效果；并且对比分析Post-LN训练不稳定的原因在于：Post-LN对于残差输出部分（非直接连接部分）进行LN次数少于其他部分，因此权重较大。因此提出AdaptiveModelInitialization（Admin）方法来使得Transformer模型更加稳定，并且能够达到原有的效果。主要公式如下：

薄情先生|会怎么样？，把Transformer加深几倍

推荐阅读

瘦身下半身的运动是什么？

孕妇孕妇吃米粉好吗

刚买回来猫需要检查什么，刚买回来的小猫不吃东西怎么办

肝脏|肝病\救星\找到了，不是猪血，没事泡点，清理肝毒，肝越来越好

明星照片|霍建华林心如与友人聚餐，3岁女儿正面照首曝光，长相甜美惹人爱

布拉德·皮特|希洛：出生就巅峰，遗传朱莉和皮特的超高颜值，16岁美出水

爱范儿用机器人取代人类编辑，这事能行吗？

番位|85花和她们的二番男搭档

震源深度|河北唐山市古冶区发生5.1级地震，震源深度10千米

环球资讯快报|配96单元导弹垂发系统，火力仅次于055大驱，伊朗版濒海舰亮相

Intel|NUC 12发烧版迷你机用上Intel独立显卡：16TB+1TB 1.36万元

hpv九价和四价的区别

面试@当HR问你期望薪水多少？千万别先亮底牌，这样回答才显情商高

虎扑足球|未遵守防疫规定遭重罚！奥地利联赛领头羊被扣6分丢掉榜首

数码小小白还在用4G网的iPhone11，为何如此火爆，5G时代来临

『呆妹儿』小团团和呆妹和好了？两人首次连线开黑，菜到无法直视

龙之队|iPhone12起售价4899元？网友：为收割华为高端用户吧

口腔保卫者：种植牙为什么会受欢迎？

比尔盖茨|比尔盖茨决定离婚后被扒：每年都和前女友度假

潮人|潮流 | 2Pac于服刑中所创作之诗词《4 What It’z Worth》正式曝光