根据技术报告,GPT-4在其中大部分测试中都取得了优异成绩 。
此外,GPT-4还参加了30项考试,GRE、评估美国医生临床知识现状的考试、为美国高中生设计的各种特定科目的考试等等 。
文章插图
后来,有研究人员提到的一个挑战是,模型是在大量文本中训练出来的,它们可能已经在训练数据中看到过类似的问题,因此实际上可能是在寻找答案 。这个问题其实被「污染」了 。
研究人员还指出,LLM在考试问题上的成功可能一击就破,可能无法转化为在现实世界中所需的强大能力 。
在解释这些基准的含义时,还有一个更深层次的问题 。
【图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」】一个在考试中表现出色的人,一般可以被认为在其他认知测试中表现出色,并且掌握了某些抽象概念 。
然而,LLM工作方式与人类截然不同 。因此,用我们评判人类方式,来推断人工智能系统,并不总是有效的 。
这可能是因为LLM只能从语言中学习 。如果没有在物理世界中,它们无法像人那样体验语言与物体、属性和情感的联系 。
很明显,他们理解单词的方式与人类不同 。
另一方面,LLM 也拥有人类所不具备的能力,比如,它们知道人类写过的几乎每一个单词之间的联系 。
OpenAI的研究员Nick Ryder也认为,一项测试的表现可能,不会像获得相同分数的人那样具有普遍性 。
他表示,我认为,我们不应该从对人类和大型语言模型的评估中得出任何等价的结论 。OpenAI 的分数 "并不代表人类的能力或推理能力 。它的目的是说明模型在该任务中的表现如何 。
人工智能研究人员表示,为了找出LLM的优势和劣势,需要更广泛和严格的审查 。丰富多彩的逻辑谜题可能是其中的一个候选者 。
逻辑谜题登场
2019年,在LLM爆发之前,Chollet在网上发布了,自己创建的一种新的人工智能系统逻辑测试,称为抽象和推理语料库(ARC)。
解题者要看几个方格变为另一种图案的可视化演示,并通过指出下一个方格将如何变换来表明他们已经掌握了变化的基本规则 。
Chollet表示,ARC 捕捉到了「人类智慧的标志」 。从日常知识中进行抽象,并将其应用于以前从未见过的问题的能力 。
当前,几个研究团队现在已经使用ARC来测试LLM的能力,没有一个能实现接近人类的表现 。
Mitchell和她的同事制作了一系列新的谜题——被称为ConceptARC——它们的灵感来自ARC,但在两个关键方面有所不同 。
ConceptARC测试更容易 。Mitchell的团队希望确保基准测试,不会错过机器能力的进步,哪怕是很小的进步 。另一个区别是,团队选择特定的概念进行测试,然后为每个主题的变体概念创建一系列谜题 。
性能差意味着什么
研究人员将ConceptARC任务分配给GPT-4和400名在线应征者 。
人类在所有概念组中的平均得分率为 91%(其中一组为 97%);GPT-在一组中的得分率为33%,在所有其他组中得分不到30% 。
研究人员证明,AI仍然无法接近人类的水平 。然而令人惊讶的是,它能解决一些从未被训练过的问题 。
研究小组还测试了Chollet竞赛中的领先聊天机器人 。
总的来说,他们比GPT-4做得更好,但表现比人类差,在一个类别中得分最高,为77%,但在大多数类别中得分不到60% 。
文章插图
不过,Bowman表示,GPT-4在ConceptARC考试中的失利并不能证明它缺乏基本的抽象推理能力 。
其实,ConceptARC对GPT-4有些不利,其中一个原因是它是一项视觉测试 。
目前,GPT-4仅能接受文本作为输,因此研究人员给GPT-4提供了代表图像的数字数组 。相比之下,人类参与者看到了图像 。
推理论证
Bowman指出,与其他实验综合起来表明,LLM至少已经获得了对抽象概念进行推理的基本能力 。
但LLM的推理能力总体上是「参差不齐的」,比人类的推理能力更有限 。不过,随着LLM的参数规模扩大,推理能力相应地也会提高 。
许多研究人员一致认为,测试LLM抽象推理能力和其他智力迹象的最佳方法,仍然是一个开放的、未解决的问题 。
推荐阅读
- Java 单元测试及常用语句
- 1分钟让别人喜欢你 我喜欢他吗 心理测试
- 梦见已故亲人再次去世 梦见早已死去的人再次办丧事
- 女生做测试工程师怎么样
- 50分贝算噪音吗 分贝噪音测试在线
- 简化Java单元测试数据
- 《战争之人 2》游戏 8 月 10-14 日开启最后一轮 Beta 测试
- 隔夜酒多长时间消除 隔夜酒多长时间消除电视台测试
- 丝巾怎么洗不皱 丝巾怎么洗
- 怎么测试烤箱好不好使 怎么检查烤箱好坏