ChatGPT火遍全网,却有一大缺陷

文 | 吴飞(浙江大学人工智能研究所所长、浙江大学计算机科学与技术学院教授)最近,聊天机器人模型ChatGPT可谓火遍全网 。
去年11月30日,由美国人工智能实验室OpenAI推出的ChatGPT可完成类似人类的文本回复,涵盖事实信息、对话和创意写作等任务,具有改变企业与客户互动方式的潜力,适用于聊天机器人、虚拟助理、语言翻译和内容生成等多种应用场景 。
人工智能技术长期积累的产物
ChatGPT的成功并非一蹴而就,而是源于以深度学习为代表的人工智能技术的长期积累 。
早期神经网络技术秉承人工智能深度学习 “逐层递进、层层抽象”的基本思想,出现了诸如MCP神经元、感知机和前馈神经网络等模型 。它们通常由多个处理信息且相互连接的“神经元”组成,其灵感来自人脑中所链接神经元之间的信息交换 。
1949年,心理学家唐纳德·赫布指出,“神经元之间持续重复的经验刺激可导致突触传递效能增加,神经元之间突触的强弱变化是学习与记忆的生理学基础 。”赫布理论为神经网络研究奠定了认知神经心理学基础 。
在自然语言中,句子均由一个个单词前后相连组成 。为了处理自然语言这一种序列数据,循环神经网络被提出 。循环神经网络适用于处理自然语言这种序列数据,其特点是可存储前序信息将其作为上下文,以辅助句子理解 。
2017年12月,google发表了论文Attention is all you need,将自注意力机制引入以更高效学习单词与其上下文单词之间的共生关系,构建了被称为Transformer的模型 。
研究人员一般采取一种“完形填空”方法来训练Transformer模型 。给定一个句子,可从句子中“移除”一个单词,然后让模型根据剩下单词的上下文填空,预测最合适的“填空词”,通过这样的“自监督学习”不断强化模型能力 。可以看出,通过“完形填空”就可使用互联网以及图书馆中海量语料自动训练模型,从而减少对昂贵标注数据的依赖 。
由于ChatGPT需要完成的是聊天问答任务,研究者提出了一种“提示学习”方法改善模型 。在该方法中,将答案句子中某个单词“移除”,然后把问题句子和答案句子拼合在一起,让模型预测被移除的单词 。如此不断学习,模型就挖掘出了“问”和“答”之间的关联,具备了根据问题合成答案的能力 。
ChatGPT还引入了人类反馈中的强化学习技术,将人类对其所提供答案的判断反馈给模型,以便对模型参数微调,提高语言模型回答的真实性和流畅性 。
【ChatGPT火遍全网,却有一大缺陷】可见,人工智能现有基本模型是以逻辑推理为核心的符号主义AI、以数据驱动为核心的连接主义AI(深度学习)、以反馈控制为核心的行为主义AI(强化学习) 。ChatGPT是对现有人工智能方法和技术的创新性整合 。
技术特点和不足
在“数据是燃料、模型是引擎、算力是加速器”的驱动下,以深度学习为核心的人工智能正犹如水和电一样赋能人类社会 。
ChatGPT恰如其分地体现了“数据、模型和算力”特点:ChatGPT的训练使用了45TB的数据、近1万亿个单词(大概是1351万本牛津词典所包含的单词数量) 。使用了深度神经网络、自监督学习、强化学习和提示学习等人工智能模型 。训练ChatGPT所耗费的算力大概是3640 PetaFLOPs per day,即用每秒能够运算一千万亿次的算力对模型进行训练,需要3640天完成 。目前披露的ChatGPT的前身GPT-3模型参数数目高达1750亿 。如果将这个模型的参数全部打印在A4纸上,一张一张叠加后,高度将超过上海中心大厦(632米) 。
在大数据、大模型和大算力的工程性结合下,ChatGPT展现出统计关联能力,可洞悉海量数据中单词-单词、句子-句子等之间的关联性,体现了语言对话的能力 。
ChatGPT以“共生则关联”为标准对模型训练会产生虚假关联和东拼西凑的合成结果,如ChatGPT认真回答“林黛玉倒拔垂杨柳”这样啼笑皆非的问题,就是缺乏常识下对数据进行机械式硬匹配所致 。
2016年3月所出现的人工智能现象级产品AlphaGo以4:1击败李世石在互联网上激起了热烈讨论 。虽然AlphaGo在迎战李世石之前,已经“阅览完毕”人类选手所有比赛棋局,并且通过自我对弈“华山论剑”海量虚拟棋局 。但是,李世石在唯一获胜的一盘中使出了人类选手绝对不可能落子的一招,这一AlphaGo从未见过的落子使其无法从容应对而落败 。可见,“数据驱动学习”模式下现有人工智能算法在挖掘共生知识方面固然表现出很强的能力,但是应用归纳、演绎、顿悟等能力获得新的创新知识更难能可贵 。


推荐阅读