文章插图
另一个有趣的结论是:dropout可以帮助减少过度拟合,但其他技术如权重衰减却并不能 。
不过现在常用的大型语言模型模型,如LLaMA,Gopher,C hinchilla,GPT-3和PaLM都没有使用dropout,因为会减慢学习速度 。
三个开放问题
1. 只重复训练像LIMA这样的高质量数据怎么样?
从直觉上来看,这是有意义的,可能会对模型质量提升有所帮助,不过坏消息是,从实际来看没有多大帮助 。
研究人员对维基百科的数据进行了一项相关实验,相比C4来说他们认为维基百科是高质量的,不过事实证明,当维基百科数据在训练期间重复多个epoch后也发生了类似的退化现象 。
2. 数据增强有用吗?
目前有几种数据增强技术,包括回译、同义词替换、句子重排以及使用模型合成数据(例如GPT-4),但还没有数据增强对模型训练效果的全面分析 。
3. 微调是什么样的?同样的规则适用吗?
根据作者的经验,训练3-5个小epoch是值得的,但目前也没有相关研究全面分析 。
更高效的视觉Transformer
EfficientViT是一种全新的视觉Transformer,在速度和准确性之间提供了良好的平衡,其性能优于其他高效架构,如Mobil.NETV3和MobileViT,同时速度更快 。
文章插图
论文链接: https://arxiv.org/abs/2305.07027
研究人员使用级联组注意力,并为每个注意力头提供完整特征的不同分割(类似于组卷积)来减少多头自注意力层中的冗余 。
文章插图
之前的研究主要关注最佳的数据集大小和模型参数量,最近研究人员提出了推断计算最佳模型形状的方法,例如宽度和深度,实验中的视觉Transformer性能优于大两倍的模型 。
文章插图
论文链接: https://arxiv.org/abs/2305.13035
此外,如果使用相同的计算资源预算来训练较小的计算优化模型,其推理成本不到较大模型的一半 。
文章插图
参考资料:
https://magazine.sebastianraschka.com/p/ahead-of-ai-9-llm-tuning-and-dataset
【一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?】
推荐阅读
- Tiktok账户常见问题及解决方法
- 电脑提示缺少msvcr120.dll怎么解决呢
- 电脑显示网络发现已关闭?怎样解决问题?
- 一文看懂显卡的显存容量/频率/位宽/带宽
- 找不到mfc140u.dll怎么解决
- 所有的四边形的内角和是多少度
- 电脑玩游戏虚拟内存不足怎么解决
- 网络打印机脱机怎么解决的
- 电脑咋样进入安全模式
- 哈尔滨所有的医院名单