薄情先生|会怎么样？，把Transformer加深几倍( 二 ) 论文地址：

（1）Profiling：初始化
（2）Initialization：在训练阶段，固定
使用Admin初始化方法，可以有效训练稳定性，即使在深层的网络中使用。
3实验
在英法和英德翻译任务上进行了实验，结果如下：
Table2列出了当前一些最好的机器翻译的模型的效果，可以看出ADMIN深层Tansformer在以上两个数据集上也达到了最好的效果。
1.论文证明加深Transformer进行训练是可行的。并且使用Admin初始化方法将Transformer模型的encoder加深至60层， decoder加深至12层，在两个机器翻译的数据集上Bleu大约提高了2个点。
2.为深层transformer模型的研究开辟了方向。
参考文献：
1.Vaswani,Ashish,etal."Attentionisallyouneed."Advancesinneuralinformationprocessingsystems.2017.
2.Wang,Qiang,etal."Learningdeeptransformermodelsformachinetranslation."arXivpreprintarXiv:1906.01787(2019).
3.Liu,Liyuan,etal."UnderstandingtheDifficultyofTrainingTransformers."arXivpreprintarXiv:2004.08249(2020).

薄情先生|会怎么样？，把Transformer加深几倍( 二 )

推荐阅读

川菜的代表菜有,川菜十大名菜鱼香肉丝-

有福气的女人，这3处过得比别人好，到了中年更明显！

[]这才是书房的正确装修方式！

内存|美光指出DDR5内存涨价关键：除了PMIC还有VRM缺货

怎么去除眼袋怎么去除眼袋小妙招

投资脉搏■反弹时刻已经到来！，两市大涨沪指涨1.69%逼近2800点

亦记得|《亮剑》共386页，为何电视剧只拍前半部分？因为结局悲得无法看

车家号|疫情难阻特斯拉销量上涨，小米又起造车风波

大S麻烦大了！返回北京的汪小菲连续骚操作，局面疑彻底反转

落夜电竞|三支队伍争夺两个季后赛名额！RNG能做的只有尽人事，听天命

十大黄茶为你介绍中国几大黄茶种类,你真的需要杯茶

网络营销工程师是做什么的，证书含金量怎么样

尼泊尔|尼泊尔火葬场有多“可怕”，外地游客直呼：今后都不敢看了

是菠萝油啊|下联：新娘我同学，横批：有钱真好，搞笑GIF：上联：新郎我爸同学

手机中国520快到了！我们提前一个星期帮你选好了送礼的手机

Gtechnews 新版本功能将上线，Altair软件即将更新

【建雯讲趣事】外婆美得风华绝代，刘亦菲是全家最丑的？妈妈像是高配奶茶妹妹

增高体操运动视频男生增高体操

「碎碎念工坊」光明跌落神坛，它终于熬出头，英魂之刃体验服更新！7大装备调整

男人一般喜欢什么样子的女人,男人喜欢什么样的女人,女人喜欢什么样的男人-