技术大神|Transformers是一种图神经网络( 四 )


为什么训练Transformers这么难?
阅读Transformer的新论文让我觉得 , 在确定最佳学习率策略、热身策略和衰变设置时 , 训练这些模型需要类似于“黑魔法”的东西 。 这可能只是因为模型太大了 , 而NLP的研究任务太具有挑战性了 。
最近的研究结果认为 , 也可能是因为归一化的具体排列和架构内的残差连接的原因 。
技术大神|Transformers是一种图神经网络
文章图片
在这一点上 , 我很愤怒 , 但这让我怀疑:我们真的需要多个头的昂贵的两两的注意力吗 , 过分参数化的MLP层 , 和复杂的学习率策略吗?
我们真的需要拥有这么大的模型吗?
【技术大神|Transformers是一种图神经网络】对于手头的任务来说 , 具有良好的归纳偏差的架构不应该更容易训练吗?


推荐阅读