技术大神|Transformers是一种图神经网络( 四 ) 作者：ChaitanyaJoshi

为什么训练Transformers这么难？
阅读Transformer的新论文让我觉得，在确定最佳学习率策略、热身策略和衰变设置时，训练这些模型需要类似于“黑魔法”的东西。这可能只是因为模型太大了，而NLP的研究任务太具有挑战性了。
最近的研究结果认为，也可能是因为归一化的具体排列和架构内的残差连接的原因。

文章图片
在这一点上，我很愤怒，但这让我怀疑：我们真的需要多个头的昂贵的两两的注意力吗，过分参数化的MLP层，和复杂的学习率策略吗？
我们真的需要拥有这么大的模型吗？
【技术大神|Transformers是一种图神经网络】对于手头的任务来说，具有良好的归纳偏差的架构不应该更容易训练吗？

技术大神|Transformers是一种图神经网络( 四 )

推荐阅读

大盘|大盘反弹，不可忽视风险

「天蝎座」6月下旬，横财入宅，3大属相吉运相随，贵人驾临，财富延绵

电竞|LOL不是战士但出肉最恶心的4个英雄，选出来就是磨人心态的

趣读文化|盗墓贼几乎洗劫一空，专家：只留下一个文物，千年古墓被发现

浅浅说科技|这次或要霸占市场！，差强人意还是搅局市场？红米K30再跌新低价

集团|葵花药业：控股股东葵花集团解除质押3700万股

手机中国续航大提升，苹果明年新iPhone将使用增强版5nm芯片

驱动之家魅族旗舰机史上最大电池！魅族17半个小时能充入56%电量

冬天吃水果清热解毒去火注意事项冬天吃什么水果降火效果最好

中国游泳功勋教练徐国义病逝|中国游泳功勋教练徐国义病逝享年50岁

『东方财富网』报54.4元，创科(00669)跌4.73%

周朝灭亡！周朝怎么灭亡的周朝是怎么灭的

GPLP|蓝思科技回应投资人：前员工贪腐不会对生产经营造成重大不利影响

2023两个立春时间 2023立春时间几点几分

安妮的大射手|但为了爱情，最疯狂的三个星座，义无反顾，不计后果，头脑理智

如何学习集合与函数的概念

高个子穿高跟鞋是啥感觉

被告|冒充医生向老年人推销降糖假药四人被控诈骗210万元

孙权杀关羽嫁祸曹操?孙权为什么对关羽赶尽杀绝

结婚五年后，我重新思考了一下婚姻的意义