“怪胎”ChatGPT的前世今生,以及未来

  • 编者按
     
自美国时间12月2日上线以来 , 美国硅谷的初创公司OpenAI推出的ChatGPT , 已经拥有超过一百万的用户 , 受到热烈的讨论 。它既能完成包括写代码 , 修bug(代码改错) , 翻译文献 , 写小说 , 写商业文案 , 创作菜谱 , 做作业 , 评价作业等一系列常见文字输出型任务 , 而且在和用户对话时 , 能记住对话的上下文 , 反应非常逼真 。
尽管业内人士认为 , ChatGPT仍存在数据训练集不够新、全等问题 , 但在人类制造人工智能 , 终点将在哪里结束?人类与会思考的机器之间的关系 , 将会如何发展?这些问题 , 我们无法停止思考 。
撰 文 | 孙睿晨
审 阅 | 张 峥
责 编 | 陈晓雪
“怪胎”ChatGPT的前世今生,以及未来

文章插图
电影《沙丘》的宣传海报(图片来源:IMBD.com)
去年年底上映的电影《沙丘》(Dune) , 是一个时间设定在10191年(距今8169年)的科幻故事 。观影时 , 我心中一直有一个疑问:这个故事中人们的生活似乎比现在更原始 , 故事中人工智能(AI , artificial intelligence)的痕迹也不是很多 。后来我去读了《沙丘》的原著 , 才明白这是作者特意设定:在10191年之前的某个时期 , 曾经发生了一场战争 。在这场战争中 , 人类的对手是人类自己创造的会思想的机器人 , 故事中称为thinking machine 。残酷战争的最后 , 人类拼尽全力才得以击败了这些有思想的机器人 。之后 , 人类决定永远禁止这些机器人的存在 。于是才产生了10191年原始的沙丘世界 。
上周五 , 美国硅谷的初创公司OpenAI推出了一款新的人工智能对话模型ChatGPT 。包括我在内的许多人 , 在过去的一周里都去体验了一下这个新的对话机器人 。在体验过这款对话机器人后——你们可能已经能猜到——我脑海中出现了沙丘的世界 。
过去的十年 , 仿佛是人工智能技术领域的“寒武纪大爆发时代” , 大量新名词在短时间内迅速产生、并且迅速流行起来 。这些新名词及其缩写 , 许多都没有统一的中文译名 , 而行业内人士间也普遍直接用英文缩写进行交流 。这为想要全面理解这些技术的外行人制造了认知上的障碍 。
想要理解ChatGPT这款对话机器人 , 需要倒叙理解InstructGPT , GPT-3 , GPT-2 , GPT , Transformer , 以及在此之前的自然语言处理领域常用的RNN模型 。
1. ChatGPT的前世
2017年 , 谷歌大脑团队(google Brain)在神经信息处理系统大会(NeurIPS , 该会议为机器学习与人工智能领域的顶级学术会议)发表了一篇名为“Attention is all you need”(自我注意力是你所需要的全部)的论文[1] 。作者在文中首次提出了基于自我注意力机制(self-attention)的变换器(transformer)模型 , 并首次将其用于理解人类的语言 , 即自然语言处理 。
在这篇文章面世之前 , 自然语言处理领域的主流模型是循环神经网络(RNN , recurrent neural.NETwork) 。循环神经网络模型的优点是 , 能更好地处理有先后顺序的数据 , 比如语言 , 但也因为如此 , 这种模型在处理较长序列 , 例如长文章、书籍时 , 存在模型不稳定或者模型过早停止有效训练的问题(这是由于模型训练时的梯度消失或梯度爆炸现象而导致 , 在此不具体展开) , 以及训练模型时间过长(因必须顺序处理数据 , 无法同时并行训练)的问题 。
“怪胎”ChatGPT的前世今生,以及未来

文章插图
最初的变换器(Transformer)模型的架构(图源:参考文献[1])
2017年提出的Transformer模型 , 则能够同时并行进行数据计算和模型训练 , 训练时长更短 , 并且训练得出的模型可用语法解释 , 也就是模型具有可解释性 。


推荐阅读