ChatGPT背后RLHF算法能成功的5个原因

前面的几篇文章 , 作者深入探讨过RLHF 的算法原理 , 今天站在一定高度讨论 , 为什么需要RLHF 这么复杂的强化学习算法 , 为什么SL(监督学习) 不能达到这样一个效果?
这篇文章就从Sebastian Raschka 推特上的分享的文章进行系统分析 , 还是来先看一下 , RLHF 算法的过程 。

ChatGPT背后RLHF算法能成功的5个原因

文章插图
RLHF
原因一:如果使用监督学习 , 它只预测等级分数 , 不会产生连贯的反应 , 这样的监督学习特点是模型就尽可能训练集对应的响应上打高分( 输入句子对决定了) , 即使响应是不连贯的 。另一方面 , RLHF 则被训练来估计产生反应的质量(训练集合是回答的排序) , 而不仅仅是排名分数 , 监督学习需要对回答打分输入 。
原因二:只使用监督学习将任务重新表述为一个受限的优化问题的想法(这里想表述的是 , 监督学习学习到的是一个固定答案 , 往往一个问题 , 可能有更好的回答响应 , RLHF 需要模型具备这样的泛化能力 , 监督学习没有负反馈), 单纯的监督学习 , 损失函数结合了输出文本损失和奖励分数项 ,  这将使生成的响应和排名的质量更高 。但这种方法只有在目标正确产生问题——答案对时才能成功 , 很多创新问题的回答 , 模型往往给不出回答 , 这时候监督学习会使模型编造答案 。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话(多轮对话)也是必要的 , 而监督学习无法提供这种奖励 , RLHF 由于在最终的状态动作轨迹上 , 求优势函数最大期望 , 天然适合这种多轮对话 。
原因三:不选择 SL 的第三个原因是 , 它使用交叉熵来优化标记级的损失 。虽然在文本段落的标记水平上 , 改变反应中的个别单词可能对整体损失只有很小的影响 , 但如果一个单词被否定 , 产生连贯性对话的复杂任务可能会完全改变上下文 。因此 , 仅仅依靠 SL 是不够的 , RLHF 对于考虑整个对话的背景和连贯性是必要的(RLHF 在全局进行优化 , 而不是单独对某个词生成的概率进行优化) 。
原因四:监督学习可以用来训练一个模型 , 但根据经验发现 RLHF 往往表现得更好 , 实际实验结果SL + RLHF 确实表现效果更好 。
原因五:使用监督学习和强化学习结合对于实现最佳性能至关重要 。在这些模型中 , 首先使用 SL 对模型进行微调 , SL 阶段允许模型学习任务的基本结构和内容 , 然后使用 RL 进一步更新 ,  RLHF 阶段则完善模型的反应以提高准确性 。
ChatGPT背后RLHF算法能成功的5个原因

文章插图
实际几种效果

【ChatGPT背后RLHF算法能成功的5个原因】


    推荐阅读