9. 小结RLHF的主要任务是生成奖励模型,通过人类偏好为输入文本分配标量奖励,并使用增强学习对大型语言模型进行微调 。同时,RLHF可能会产生偏差,需要使用相应的缓解策略 。通过强化学习和监督式学习中微调的对比,可以了解到二者结合使用的可能性,也就是RLHF的一个潜在发展方向——RLAIF 。
【参考资料与关联阅读】
- “Deep reinforcement learning from human preferences” by OpenAI (2017),https://arxiv.org/abs/1706.03741
- Reinforcement Learning from Human Feedback,https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/
- Learning to summarize from human feedback by OpenAI (2020),https://arxiv.org/abs/2009.01325
- Illustrating Reinforcement Learning from Human Feedback (RLHF)
- https://www.linkedin.com/posts/sebastianraschka_
推荐阅读
- GPT-4和ChatGPT大比拼,究竟谁胜?
- 权色交易|深度解读:女色虎副行长曹艳丽,为什么钟爱“权色交易”?
- 黄晓明|黄晓明:雨露均沾,24分钟内对《浪姐4》中的33位女艺人逐一表白
- 张丹峰|唐嫣这场同学会,娱乐圈中的世态炎凉,在文章身上体现的很彻底!
- 张一山|一个生日,娱乐圈中的世态冷暖,在31岁张一山身上体现得淋漓尽致
- 莫妮卡·贝鲁奇|曾经美到迷倒全世界,如今沦为大众眼中的“老阿姨”
- 娱乐圈|一个生日,娱乐圈中的世态冷暖,在72岁唐国强身上体现得淋漓尽致
- Chatgpt:AI写作系统掀起的时代浪潮
- 使用 ChatGPT AI 从英文文本生成 Linux 命令
- ChatGPT 不好用?请收下这份 Prompt 工程指南!