由于巨大的参数数目以及训练所需数据集规模 , 训练一个GPT-3模型保守估计需要五百万美元至两千万美元不等——如果用于训练的GPU越多 , 成本越高 , 时间越短;反之亦然 。可以说 , 这个数量级的大型语言模型已经不是普通学者、一般个人能负担得起研究项目了 。面对如此庞大的GPT-3模型 , 用户可以仅提供小样本的提示语、或者完全不提供提示而直接询问 , 就能获得符合要求的高质量答案 。小样本提示是指用户在提问时先给模型提供几个例子 , 然后再提出自己的语言任务(翻译、创作文本、回答问题等) 。
文章插图
GPT-3可以根据用户给的提示语(类似于例子)而更好的回答问题(图片来源:[4])
GPT-3模型面世时 , 未提供广泛的用户交互界面 , 并且要求用户提交申请、申请批准后才能注册 , 所以直接体验过GPT-3模型的人数并不多 。根据体验过的人们在网上分享的体验 , 我们可以知道GPT-3可以根据简单的提示自动生成完整的、文从字顺的长文章 , 让人几乎不能相信这是机器的作品 。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类的任务 。早期测试结束后 , OpenAI公司对GPT-3模型进行了商业化:付费用户可以通过应用程序接口(API)连上GPT-3 , 使用该模型完成所需语言任务 。2020年9月 , 微软公司获得了GPT-3模型的独占许可 , 意味着微软公司可以独家接触到GPT-3的源代码 。该独占许可不影响付费用户通过API继续使用GPT-3模型 。
2022年3月 , OpenAI再次发表论文“Training language models to follow instructions with human feedback”(结合人类反馈信息来训练语言模型使其能理解指令) , 并推出了他们基于GPT-3模型并进行了进一步的微调的InstructGPT模型 。InstructGPT的模型训练中加入了人类的评价和反馈数据 , 而不仅仅是事先准备好的数据集 。
GPT-3公测期间用户提供了大量的对话和提示语数据 , 而OpenAI公司内部的数据标记团队也生成了不少人工标记数据集 。这些标注过的数据(labelled data) , 可以帮助模型在直接学习数据的同时学习人类对这些数据的标记(例如某些句子、词组是不好的 , 应尽量少使用) 。
OpenAI公司第一步先用这些数据对GPT-3用监督式训练(supervised learning)进行了微调 。
第二步 , 他们收集了微调过的模型生成的答案样本 。一般来说 , 对于每一条提示语 , 模型可以给出无数个答案 , 而用户一般只想看到一个答案(这也是符合人类交流的习惯) , 模型需要对这些答案排序 , 选出最优 。所以 , 数据标记团队在这一步对所有可能的答案进行人工打分排序 , 选出最符合人类思考交流习惯的答案 。这些人工打分的结果可以进一步建立奖励模型——奖励模型可以自动给语言模型奖励反馈 , 达到鼓励语言模型给出好的答案、抑制不好的答案的目的 , 帮助模型自动寻出最优答案 。
第三步 , 该团队使用奖励模型和更多的标注过的数据继续优化微调过的语言模型 , 并且进行迭代 。最终得到的模型被称为InstructGPT 。
3. ChatGPT的诞生
我们今天的主角是ChatGPT及其前身 , 所以无法避免以OpenAI公司为主线来讲述 。从GPT-1到InstructGPT , 如果我们只关注OpenAI公司 , 难免会忽视掉其他人工智能公司和团队其实在同期也在进行与OpenAI公司同样的尝试 。在GPT-3推出后的两年内 , 有不少类似的大型语言模型涌现 , 但不得不说的是 , 名气最大的模型还是GPT-3 。
文章插图
GPT-3的部分竞品(图片来源:gpt3demo.com)
时间线回到今天 。在今年神经信息处理系统大会会议期间 , OpenAI公司在社交网络上向世界宣布他们最新的大型语言预训练模型:ChatGPT 。
与InstructGPT模型类似 , ChatGPT是OpenAI对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人 。OpenAI官网信息显示 , ChatGPT模型与InstructGPT模型是姐妹模型 。由于最大的InstructGPT模型的参数数目为1750亿(与GPT-3模型相同) , 所以有理由相信ChatGPT参数量也是在这个数量级 。但是 , 根据文献 , 在对话任务上表现最优的InstructGPT模型的参数数目为15亿 , 所以ChatGPT的参数量也有可能相当[5] 。
推荐阅读
- 为什么选择 AWS 作为“架构完善的框架”?
- 升级B买体验,阿里1688的“批发采购新通路”
- 基努·里维斯|为拍电影将自己训练成专业级射手?细数好莱坞那些“狠人”演员!
- 寡人是什么意思解释 寡人是什么意思
- 手机“中毒”了怎么彻底清除? 手机怎样杀毒
- “月份”英语单词怎么读? 月份英语
- “本命年”的说法是怎么来的? 本命年有什么讲究
- “以房养老”骗局再现 谁来做老年金融消费者的守护人
- 霍邱一女子生醋意 用老公手机给其女性朋友发短信“我想你”
- 国企|中铁三局招文员要求“身材好”,负责人回应后,网友:越描越黑