人工智能的80年进化编年史:从想象到现实( 五 )


正是在AI绘画模型上有苦说不出的经历 , 直接影响了后来OpenAI管理层的决策:决定在第一时间面向公众抢先推出 ChatGPT聊天机器人 。
2021年4月
华为的盘古NLP大模型发布 , 号称是中国第一个千亿参数语言大模型 。
2021年6月
6 月 30 日 , OpenAI 和 GitHub 联合发布了 AI 代码补全工具 GitHub Copilot , 这个工具可以在 VS Code 编辑器中自动完成代码片段 , 也是 OpenAI 拿了微软 10 亿美元之后的第一个重大成果 。
而Copilot 的AI技术核心正是OpenAI的新模型CodeX 。这个模型在随后的8月份也对外发布了 。
根据相关论文 《Evaluating Large Language Models Trained on Code》 , OpenAI基于GPT-3 , 使用大量公开代码数据训练出了Codex模型 。
Codex拥有120亿参数 , 使用了159G代码数据进行训练 , 模型可以将自然语言描述转换为代码 。而效果吗 , 看看码农们对Copilot的赞不绝口就知道了 。
AI生成代码的时代终于到来了 。
据称 , Codex的训练数据来自于公共数据源的数十亿行源代码 , 而其中最重要的来源 , 无疑正是微软所买下的GitHub 这个世界上最大的开源代码平台 。
使用GitHub代码训练模型这个事情还引起了一些程序员关于代码版权的热烈讨论 。
不过 , 正如画师们对砸了自己饭碗的AI绘画大模型怨声载道而然并卵 。。。能力突破的AI对人类初级技能的全面覆盖 , 恐怕是一个不得不接受的事实 。
从商业角度上看 , CodeX的诞生和Copilot的成功证明了OpenAI和微软的商业合作确实是一个双赢 。
2021年10月
第一个开源的AI绘画大模型Disco-Diffusion诞生!
发布在Github上的Disco-Diffusion是整个2022年AI绘画旋风的起点 。从Disco-Diffusion开始 , AI绘画大模型突飞猛进的发展让所有人目不暇接 , 揭开了AI的新时代 。
2021年12月
百度第三代文心语言大模型 , 2600亿参数的ERNIE3.0 Titan发布 。
百度文心和华为盘古都是GPT-3量级的模型 , 关于国产大模型的具体判断 , 读者有兴趣可以参考本号国产ChatGPT们的真相>一文
2022 年 3 月
OpenAI发布InstructGPT ,  同时发表论文《Training language models to follow instructions with human feedback》 。
根据论文 , InstructGPT基于GPT-3模型做了进一步微调 , 并且在模型训练中加入了人类的反馈评价数据 。
这里出现的RLHF "从人类反馈中强化学习" , 正是后面ChatGPT所依赖的一个关键技术 。
2022年4月
OpenAI发布了AI绘画大模型DALL-E 2 。
同一时间 , 面向公众的付费AI绘画服务Midjourney也发布了 。
和开局王炸 , 第一年就赚取了大把真金白银的MidJourney相比 , 使用受限的DALL-E 2并没有在大众人群里产生多少影响力 。
如之前所说 , OpenAI在绘画大模型的开放上过于保守了 , 也许还有优先和微软技术合作的考量在内...
总之 , 非常遗憾 , 绘画模型的风头完全被付费的Midjourney和随后的Stable diffusion抢走 。
2022年5月
OpenAI发布代号为text-davinci-002的新版大模型 , GPT系列正式迈入3.5时代 。
有趣的是 , 按照OpenAI官方文档说法:
is a base model , so good for pure code-completion tasks
is an InstructGPT model based on
就是说 , 代号为code的002号模型是3.5系列的基础模型 , 而代号为text的002号模型是基于code 002模型用指令微调技术得到的 (insturctGPT)
如果 , OpenAI没有在模型名字上混淆视听 , 一个有趣而合理的推断是:GPT-3.5系列的基础核心模型首先是依赖于代码(Code)大数据训练 , 而不是普通文本(Text)训练的
如果这个推断差不太多 , 那么众多ChatGPT的追随者们 , 如希望自家能力真正比肩基于GPT-3.5的ChatGPT ,  那必须要补的一课 , 就是代码数据的训练了 。
2022年6月
6月15日 , 谷歌研究院联合DeepMind和斯坦福大学等在arxiv上发表了一篇论文:《Emergent Abilities of Large Language Models(大语言模型的突现能力)》 。
这篇综述性的文章对过往文献结论做了整理 , 研究了5 个语言模型系列(谷歌 LaMDA , PaLM 和 OpenAI 的 GPT-3 , 以及 DeepMind 的 Gopher , Chinchilla )的 8 种突现能力 。如下所示:


推荐阅读