奖励建模 (Reward Modeling) 阶段目标是构建一个文本质量对比模型,对于同一个提示词,SFT 模型给出的多个不同输出结果的质量进行排序 。奖励模型 (RM 模型) 可以通过二分类模型, 对输入的两个结果之间的优劣 进行判断 。 RM 模型与基础语言模型和 SFT 模型不同, RM 模型本身并不能单独提供给用户使用 。奖励模型的训 练通常和 SFT 模型一样, 使用数十块 GPU , 通过几天时间完成训练 。由于 RM 模型的准确率对于强化学习阶段 的效果有着至关重要的影响, 因此对于该模型的训练通常需要大规模的训练数据 。 Andrej Karpathy 在报告中指 出, 该部分需要百万量级的对比数据标注, 而且其中很多标注需要花费非常长的时间才能完成 。标注示例中文 本表达都较为流畅, 标注其质量排序需要制定非常详细的规范, 标注人员也需要非常认真的对标规范内容进行 标注, 需要消耗大量的人力, 同时如何保持众包标注人员之间的一致性, 也是奖励建模阶段需要解决的难点问 题之一 。此外奖励模型的泛化能力边界也在本阶段需要重点研究的另一个问题 。如果 RM 模型的目标是针对所 有提示词系统所生成输出都能够高质量的进行判断, 该问题所面临的难度在某种程度上与文本生成等价 , 因此 如何限定 RM 模型应用的泛化边界也是本阶段难点问题 。
强化学习 (Reinforcement Learning) 阶段根据数十万用户给出的提示词,利用在前一阶段训练的 RM 模型, 给出 SFT 模型对用户提示词补全结果的质量评估 , 并与语言模型建模目标综合得到更好的效果 。该阶段所使用 的提示词数量与有监督微调阶段类似,数量在十万量级,并且不需要人工提前给出该提示词所对应的理想回复 。 使用强化学习,在 SFT 模型基础上调整参数 , 使得最终生成的文本可以获得更高的奖励 (Reward)。该阶段所需 要的计算量相较预训练阶段也少很多,通常也仅需要数十块 GPU,经过数天时间的即可完成训练 。对比强化学 习和有监督微调, 在模型参数量相同的情况下,强化学习可以得到相较于有监督微调好得多的效果 。关于为什么 强化学习相比有监督微调可以得到更好结果的问题,截止到 2023 年 9 月也还没有完整和得到普遍共识的解释 。此外, Andrej Karpathy 也指出强化学习也并不是没有问题的,它会使得基础模型的熵降低,从而减少了模型输 出的多样性 。在经过强化学习方法训练完成后的 RL 模型,就是最终提供给用户使用具有理解用户指令和上下文 的类 ChatGPT 系统 。由于强化学习方法稳定性不高,并且超参数众多,使得模型收敛难度大,再叠加 RM 模型 的准确率问题,使得在大规模语言模型如何能够有效应用强化学习非常困难 。
模型的训练成本
在模型的训练过程中除了要考虑模型准确性, 性能、成本和延迟都是重要考虑因素,需要考虑效率和效果 (e?iciency with effectiveness)之间的平衡 。
当然,大语言模型需要大量数据来学习自然语言的模式和结构 。估算数据的成本可能具有挑战性,因为公 司通常使用其业务运营中长期积累的数据以及开源数据集 。此外,还要考虑到数据需要进行清洗、标记、组织 和存储,考虑到 LLM 的规模 , 数据管理和处理成本会迅速增加,特别是考虑到这些任务所需的基础设施、工具 和数据工程师时 。举个具体的例子,已知 LLaMA 使用了包含 1.4 万亿个 token 的训练数据集,总大小为 4.6TB!接下主要介绍的是计算资源等方面的成本 。
算力估算
如何评估大模型的所需算力 。众所周知, 现如今的预训练语言模型均是基于 Transformer 结构实现的,因此 大模型的参数主要来源于 Transformer 的 Self-Attention 部分 。EleutherAI 团队近期发布一篇博客来介绍如何估计一个大模型的算力成本 , 公式如下:
C = τT ≈ 6PD
公式中各个符号代表的含义如下:
- C 表示 Transformer 需要的计算量,单位是 FLOP;
- P 表示 Transformer 模型包含的参数量;
- D 表示训练数据规模,以 Token 数量为单位;
- τ 表示吞吐量,单位为 FLOP
- T 表示训练时间;
推荐阅读
- 生成式AI与大模型有什么区别和联系?
- 使用Python语言和Pygame库,一步步打造自己的五子棋游戏!
- 网络用语vs什么意思 网络语言vs什么意思
- 春节促销活动推广语言 春节促销活动推广语言有哪些
- 节奏基石指的是有语言中最小的 节奏基石指的是
- C 语言程序如何在计算机内部工作?
- 揭秘大模型背后的知识储存与提取技术
- 大模型助力高效创建知识图谱
- 火山引擎向量数据库:抖音大规模实践
- 使用 Triton 部署 chatglm2-6b 模型