技术大神|Transformers是一种图神经网络( 四 )
为什么训练Transformers这么难?
阅读Transformer的新论文让我觉得 , 在确定最佳学习率策略、热身策略和衰变设置时 , 训练这些模型需要类似于“黑魔法”的东西 。 这可能只是因为模型太大了 , 而NLP的研究任务太具有挑战性了 。
最近的研究结果认为 , 也可能是因为归一化的具体排列和架构内的残差连接的原因 。
文章图片
在这一点上 , 我很愤怒 , 但这让我怀疑:我们真的需要多个头的昂贵的两两的注意力吗 , 过分参数化的MLP层 , 和复杂的学习率策略吗?
我们真的需要拥有这么大的模型吗?
【技术大神|Transformers是一种图神经网络】对于手头的任务来说 , 具有良好的归纳偏差的架构不应该更容易训练吗?
推荐阅读
- 「小米科技」小米11Pro宣布新技术!首发骁龙875+屏下镜头,米粉:价格有点小贵
- 金牌娱乐|月入十万左右,扣税额就高达两万,网红大神啊段晒收入
- 潮黑社|屏下指纹技术虽不再是难题,但市场却已无法挽回,LCD再获突破
- 科学技术宅六六|花了一亿的一加,为何效果比花两亿的华为好?,同样定制屏幕
- 西安发布|打破国外技术垄断,陕鼓自主研发全球最大轴流压缩机
- 「硬盘」互联网可能在三年内被IPFS技术彻底颠覆
- 小毛羊|除甲醛加盟到底靠不靠谱?为什么那么多人都入坑了?我们整理的除甲醛技术内容包括:
- ZAKER生活|揭秘显微镜下沼泽的爱恨情仇,大神探索《我的世界》隐秘的角落
- [恐龙]科学家为什么不用克隆技术让恐龙复活?恐龙复活的3个条件很难实现
- 手机技术资讯|华星光电将从下个月开始陆续向三星电子供应OLED屏幕面板