GPT-4和ChatGPT大比拼,究竟谁胜?( 二 )


总体来说,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令 。参见表2 。

GPT-4和ChatGPT大比拼,究竟谁胜?

文章插图
表2 从GPT-3.5到GPT-4的新变化
02 GPT-4与ChatGPT
ChatGPT是基于GPT-3.5的AI聊天机器人 。但在对话方面,GPT-4已表现出更好的连贯性和语境理解能力:不仅可以生成流畅、准确和有逻辑的文本,还可以理解和回答各种类型的问题,甚至还可以与用户进行创造性和技术性的写作任务 。其中,比较突出的应用能力体现如下 。
1、新增的图片辨识和分析能力 。与ChatGPT相比,GPT-4除了可以支持文字输入以外,还新增了图片辨识和分析功能,即能辨识图片(输出对图片的内容描述)、分析图表(类似Excel中的图表分析)、发现图片中的不常之处(对图片中异常现象进行辨识)、阅读文件并总结概要(如对PDF文件内容进行归纳总结)等 。甚至只需要在纸上画一个网站的草稿图,拍一张照片上传给GPT-4,模型便可生成网站代码 。
2、更先进的推理能力 。相比ChatGPT只能在一定程度上进行简单和直接的推理,GPT-4可以进行复杂和抽象的思考,能解决更复杂的问题 。如前所述,GPT-4在多个专业和学术领域都已表现出人类的水平,如美国的律师考试已经达到了前10%的标准,法学院的入学考试也达到了88%的成绩,SAT大学入学考试也达到了90%的成绩 。特别是ChatGPT不擅长的数学解题能力,GPT-4有了大幅提升,在美国高校入学考试SAT数学考试中,获得了800分中的700分 。
3、更高水平的创造力和协作性 。与ChatGPT只能在一定范围内进行有限的创造和协作不同,GPT-4可以与用户进行创造性和技术性的写作任务,例如创作歌曲、编写剧本或者学习用户的风格和偏好,还可以生成、编辑和迭代各种类型和风格的文本,并且能够根据用户的反馈和建议来改进其输出 。
4、更广泛的应用前景 。GPT-4凭借接近人类水平的语言理解和生成能力以及其他方面的优势,可在各种领域和场合中发挥重要作用 。例如,GPT-4可以作为一个智能助理、教育工具、娱乐伙伴和研究助手,为office办公软件、搜索引擎、虚拟导师应用等提供使能 。据公开资料报道,微软已将GPT-4接入Office套件从而推出全新的AI功能Copilot,也已将GPT-4接入Bing以提供定制化搜索服务;摩根士丹利正在应用GPT-4进行财富管理部市场信息的分类和检索;Doulingo将使用GPT-4进行角色扮演以增进语言的学习;BeMyEyes正在运用GPT-4将视觉型图片转成文字帮助盲人理解;可汗学院也已使用GPT-4作为虚拟导师Khanmigo……等等 。
可以预见,GPT-4将会接入越来越多的行业,从而促进社会生产力和创造力的提升,为人类带来便利和价值 。与此同时,伴随着GPT-4的应用拓展和深入,GPT-4将从人类反馈中进行更多、更快的学习,其模型迭代升级的速度也将随之加快,更多的功能、更强的性能将会呈惊现于世 。
03 共同的问题
如前所述,GPT-4和ChatGPT同属生成式AI自然语言大模型 。所谓生成式,简而言之就是根据输入的单词来预测下一个最有可能出现的关联性单词,然后将这个最有可能出现的单词输入模型,再预测下一个最有可能出现的关联性单词……,类似“单词接龙”,如此接续 。通过对大量现存的各种人类语料进行“训练”,让模型的各个参数不断调整,使得模型的“单词接龙”水平不断接近人类语料的真实情况,即让模型学到规律 。由此,GPT-4和ChatGPT均会存在由于生成式本身的短板所导致的一系列问题 。
例如:如果真实语料中本身存在大量虚假信息,或者存在大量有毒信息(如充满种族、性别、宗教、政治等偏见或恶意),而这些信息恰好被模型学到了,这无疑会导致模型存在产生有害内容的风险;如果出现了实际不同但碰巧符合同一规律的内容,模型有可能无法区分其真实性,最直接的结果是,若现实中不存在的内容刚好符合模型从训练材料中学到的规律,模型就有可能对不存在的内容进行“合乎规律的混合捏造”,即产生虚假信息;由于模型缺乏可解释性,而我们又无法直接查看模型到底记住了什么、学到了什么,只能通过多次提问来评估和猜测它的所记所学,这会导致隐私泄露风险(据BBC 3月23日报道,有用户在社交媒体上看到了其他人使用ChatGPT的历史搜索记录标题);基于“从人类反馈中强化学习”,难以避免从恶意的诱导中学到了不该学的规律,这会给意识形态侵袭、网络安全带来冲击…… 。总之,伴随着应用越广泛、越深入,GPT-4和ChatGPT都将面临更多的安全与风险挑战 。


推荐阅读