一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？( 三 )

2023-06-09 语言模型

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

文章插图
另一个有趣的结论是：dropout可以帮助减少过度拟合，但其他技术如权重衰减却并不能。
不过现在常用的大型语言模型模型，如LLaMA，Gopher，C hinchilla，GPT-3和PaLM都没有使用dropout，因为会减慢学习速度。
三个开放问题
1. 只重复训练像LIMA这样的高质量数据怎么样？
从直觉上来看，这是有意义的，可能会对模型质量提升有所帮助，不过坏消息是，从实际来看没有多大帮助。
研究人员对维基百科的数据进行了一项相关实验，相比C4来说他们认为维基百科是高质量的，不过事实证明，当维基百科数据在训练期间重复多个epoch后也发生了类似的退化现象。
2. 数据增强有用吗？
目前有几种数据增强技术，包括回译、同义词替换、句子重排以及使用模型合成数据（例如GPT-4），但还没有数据增强对模型训练效果的全面分析。
3. 微调是什么样的？同样的规则适用吗？
根据作者的经验，训练3-5个小epoch是值得的，但目前也没有相关研究全面分析。
更高效的视觉Transformer
EfficientViT是一种全新的视觉Transformer，在速度和准确性之间提供了良好的平衡，其性能优于其他高效架构，如Mobil.NETV3和MobileViT，同时速度更快。

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

文章插图
论文链接： https://arxiv.org/abs/2305.07027
研究人员使用级联组注意力，并为每个注意力头提供完整特征的不同分割（类似于组卷积）来减少多头自注意力层中的冗余。

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

文章插图
之前的研究主要关注最佳的数据集大小和模型参数量，最近研究人员提出了推断计算最佳模型形状的方法，例如宽度和深度，实验中的视觉Transformer性能优于大两倍的模型。

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

文章插图
论文链接： https://arxiv.org/abs/2305.13035
此外，如果使用相同的计算资源预算来训练较小的计算优化模型，其推理成本不到较大模型的一半。

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

文章插图
参考资料：
https://magazine.sebastianraschka.com/p/ahead-of-ai-9-llm-tuning-and-dataset

【一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？】

推荐阅读

上一篇：WebGPU 是 2023 年 Web 的未来！

下一篇：一次MySQL主从同步异常，扒个底朝天都没排查出来……