图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

世界最强AI——ChatGPT可以通过各种考试,甚至输出回答让人难以辨别真假 。
然而,它也有力所不及之处,那便是解决简单的视觉逻辑难题 。
在一项由屏幕上排列的一系列色彩鲜艳的块组成的测试中,大多数人都能找出连接的图案 。

图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

文章插图
但是,根据研究人员今年 5 月的一份报告,GPT-4在一类图案的测试中正确率仅为1/3,而在另一类图案中正确率仅为3% 。
图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

文章插图
论文地址:https://arxiv.org/pdf/2305.07141.pdf这项研究背后的团队,旨在为了测试AI系统的能力提供一个更好的基准,并帮助解决GPT-4等大型语言模型的难题 。
论文作者Melanie Mitchell表示,人工智能领域的人们正在为如何评估这些系统而苦苦挣扎 。
AI评估如何有效?
在过去的两三年里,LLM 在完成多项任务的能力上已经超越了以前的人工智能系统 。
它们的工作原理很简单,就是根据数十亿在线句子中单词之间的统计相关性,在输入文本时生成可信的下一个单词 。
对于基于LLM构建的聊天机器人来说,还有一个额外的元素:人类训练员提供了大量反馈,以调整机器人的反应 。
令人惊叹的是,这种类似于自动完成的算法是在大量人类语言存储的基础上训练出来的,其能力的广度令人叹为观止 。
其他人工智能系统可能会在某项任务中击败 LLM,但它们必须在与特定问题相关的数据上进行训练,无法从一项任务推广到另一项任务 。
图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

文章插图
哈佛大学的认知科学家Tomer Ullman表示,从广义上讲,对于LLM背后发生的事情,两个阵营的研究人员持有截然相反的观点 。一些人将算法的成就归因于推理或理解的闪光点 。其他人(包括他自己和Mitchell等人)则要谨慎得多 。
讨论双方的研究人员表示,像逻辑谜题这样揭示人类与AI系统能力差异的测试,是朝着正确方向迈出的一步 。
纽约大学认知计算科学家Brenden Lake说,这种基准测试有助于揭示当今机器学习系统的不足之处,并理清了人类智能的要素 。
关于如何最好地测试LLM,以及这些测试意义的研究也很实用 。
Mitchell说,如果要将LLM应用于现实世界的各个领域,比如医学、法律 。那么了解它们的能力极限就非常重要 。
图灵测试死了吗?
长期以来,机器智能最著名的测试一直是图灵测试 。
图灵测试是英国数学家和计算大师艾伦·图灵在1950年提出,当时计算机还处于起步阶段 。
图灵提出了一个评估,他称之为「模仿游戏」 。
在这个场景中,「人类法官」与一台计算机、和一个看不见的人进行简短的、基于文本的对话 。
这个人类能可靠地检测出哪台是计算机吗?图灵表示,这是一个相当于「机器能否思考」的问题 。
图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

文章插图
Mitchell指出,图灵并没有具体说明场景的许多细节,因此没有确切的标准可循 。
其他研究人员认为,GPT-4和其他LLM现在很可能通过了「图灵测试」,因为它们可以骗过很多人,至少是在短对话中 。
5月,AI21实验室的研究人员报告说,超过150万人玩过他们基于图灵测试的在线游戏 。
玩家正确识别机器人的比例仅为60%,这并不比偶然性好多少 。
图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

文章插图
然而,在这种游戏中,熟悉LLM的研究人员可能仍然会获胜 。通过利用AI系统的已知弱点,就会很容易发现LLM 。
关键是要让LLM走出自己的「舒适区」 。
谷歌软件工程师François Chollet建议,向LLM演示一些场景,这些场景是LLM在其训练数据中经常看到的场景的变体 。在许多情况下,LLM的回答方式是,吐出最有可能与训练数据中的原始问题相关联的单词,而不是针对新情景给出的正确答案 。
然而,Chollet和其他人对,把以欺骗为中心的测试作为计算机科学的目标持怀疑态度 。
基准测试有危险
相反,研究人员在评估人工智能系统时,通常不采用图灵测试,而是使用旨在评估特定能力(如语言能力、常识推理和数学能力)表现的基准 。
越来越多的研究团队也开始转向,为人类设计的学术和专业考试 。
GPT-4发布时,OpenAI在一系列专为机器设计的基准测试中测试了其性能,包括阅读理解、数学和编码 。


推荐阅读