薄情先生|会怎么样?,把Transformer加深几倍( 二 )


(1)Profiling:初始化
(2)Initialization:在训练阶段 , 固定
使用Admin初始化方法 , 可以有效训练稳定性 , 即使在深层的网络中使用 。
3实验
在英法和英德翻译任务上进行了实验 , 结果如下:
Table2列出了当前一些最好的机器翻译的模型的效果 , 可以看出ADMIN深层Tansformer在以上两个数据集上也达到了最好的效果 。
1.论文证明加深Transformer进行训练是可行的 。 并且使用Admin初始化方法将Transformer模型的encoder加深至60层 , decoder加深至12层 , 在两个机器翻译的数据集上Bleu大约提高了2个点 。
2.为深层transformer模型的研究开辟了方向 。
参考文献:
1.Vaswani,Ashish,etal."Attentionisallyouneed."Advancesinneuralinformationprocessingsystems.2017.
2.Wang,Qiang,etal."Learningdeeptransformermodelsformachinetranslation."arXivpreprintarXiv:1906.01787(2019).
3.Liu,Liyuan,etal."UnderstandingtheDifficultyofTrainingTransformers."arXivpreprintarXiv:2004.08249(2020).


推荐阅读