一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?( 三 )


一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?

文章插图
另一个有趣的结论是:dropout可以帮助减少过度拟合,但其他技术如权重衰减却并不能 。
不过现在常用的大型语言模型模型,如LLaMA,Gopher,C hinchilla,GPT-3和PaLM都没有使用dropout,因为会减慢学习速度 。
三个开放问题
1. 只重复训练像LIMA这样的高质量数据怎么样?
从直觉上来看,这是有意义的,可能会对模型质量提升有所帮助,不过坏消息是,从实际来看没有多大帮助 。
研究人员对维基百科的数据进行了一项相关实验,相比C4来说他们认为维基百科是高质量的,不过事实证明,当维基百科数据在训练期间重复多个epoch后也发生了类似的退化现象 。
2. 数据增强有用吗?
目前有几种数据增强技术,包括回译、同义词替换、句子重排以及使用模型合成数据(例如GPT-4),但还没有数据增强对模型训练效果的全面分析 。
3. 微调是什么样的?同样的规则适用吗?
根据作者的经验,训练3-5个小epoch是值得的,但目前也没有相关研究全面分析 。
更高效的视觉Transformer
EfficientViT是一种全新的视觉Transformer,在速度和准确性之间提供了良好的平衡,其性能优于其他高效架构,如Mobil.NETV3和MobileViT,同时速度更快 。
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?

文章插图
论文链接: https://arxiv.org/abs/2305.07027
研究人员使用级联组注意力,并为每个注意力头提供完整特征的不同分割(类似于组卷积)来减少多头自注意力层中的冗余 。
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?

文章插图
之前的研究主要关注最佳的数据集大小和模型参数量,最近研究人员提出了推断计算最佳模型形状的方法,例如宽度和深度,实验中的视觉Transformer性能优于大两倍的模型 。
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?

文章插图
论文链接: https://arxiv.org/abs/2305.13035
此外,如果使用相同的计算资源预算来训练较小的计算优化模型,其推理成本不到较大模型的一半 。
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?

文章插图
参考资料:
https://magazine.sebastianraschka.com/p/ahead-of-ai-9-llm-tuning-and-dataset

【一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?】


推荐阅读