LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

自去年ChatGPT发布后,业内外都涌现出了一股对大型语言模型的狂热情绪,甚至有谷歌员工宣称公司内部的语言模型有了意识 。
最近,纽约大学教授、Meta首席AI科学家、图灵奖得主Yann LeCun及纽约大学计算机科学系的博士后Jacob Browning发表了一篇长文,他们认为是语言本身的局限性让LLM的智能无法提升 。

LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

文章插图
虽然语言模型变得越来越通用且强大,但我们却越来越不懂模型的思考过程 。
模型可以在各个常识推理基准测试中取得非常高的准确率,但为什么还是会说废话、给出危险的建议呢?
也就是说,为什么语言模型如此聪明,能力却又如此有限?
研究人员认为,问题根本不是出在AI算法,而在于语言的局限性,一旦我们放弃「语言即思维」的假设,就会发现尽管LLM的表现出色,但它们永远无法达到接近人类的智慧程度 。
语言模型到底是怎么回事?在19世纪和20世纪的哲学和科学研究中,主流认知是「知识即语言学」,也就是说,知道某样只是意味着想到了正确的句子,并了解如何与已知的真实网络中的其他句子联系起来 。
按照这种逻辑,语言的理想形式应该是一种纯粹形式化的、符合逻辑数学的形式,由任意的符号组成,依照严格的推理规则连接起来,但自然语言可能还需要语义消歧和不精确的 。
奥地利哲学家Wittgenstein曾说过,真命题的总和就是自然科学的全部 。
虽然在认知地图(cognitive maps)和心像(mental images)领域还存在争议,但20世纪确立的语言学基础就是符号主义 。
LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

文章插图
这一观点到目前也被很多人接受:如果百科全书可以包含所有已知的内容,那只要把所有书都读一遍,那就可以对世界有一个全面了解 。
人工智能的早期研究也遵循这个思想,定义符号操作,根据逻辑规则以不同方式将语言符号绑定在一起 。
对于当时的研究人员来说,人工智能的知识都储存在一个由人工逻辑连接的真实句子组成的庞大数据库,如果人工智能系统在正确的时间吐出正确的句子,即能够以适当的方式进行符号操作的话,就可以认为是一个智能系统 。
这一想法也是图灵测试的基础:如果一台机器可以在合适的时机把自己知道的内容说出去,就意味着它知道自己在说什么,以及何时运用自己的知识 。
【LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」】
LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

文章插图
但反对者认为,一台机器可以聊天,并不意味着它可以理解谈论的具体内容,因为语言并不能穷尽知识,相反,语言只是一种高度具体的、非常有限的知识表征 。
所有的语言,无论是编程语言、符号逻辑还是口语,都只是一种特定类型的表征模式,以极高的抽象级别表达离散的对象和属性以及彼此之间的关系 。
不过,阅读乐谱和听音乐之间存在巨大的鸿沟,与演奏技巧之间的差异则更大 。
语言表征更像是对某些具体信息的压缩,例如描述不规则的形状、物体的运动、复杂机制的功能等,其他非语言的表征也可以用一种可理解的方式来传达信息,如图像、录音、图表等 。
语言的局限性语言是一种带宽非常低的传输方式,如果脱离上下文的话,孤立的单词或句子能传达出的信息量非常少,并且由于同音异义词和代词的数量很多,许多句子的语义都非常模糊 。
乔姆斯基(Chomsky )在几十年前就提出,语言并不是一种清晰且明确的沟通工具 。
但人类并不需要一个完美的沟通工具,我们对一个句子的理解通常取决于句子出现的语境,从而推断出句子的表达含义 。
在大多数情况下,我们都在讨论面前的事物,比如正在进行的足球比赛,或是面对某些特定的社会角色,比如跟服务员点餐,交流一些明确的目标 。
LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

文章插图
在阅读一篇短文时,主要考察的是使用通用阅读理解策略来理解文本内容,但研究表明,儿童对某个主题的背景知识量实际上是影响理解的关键因素 。
It is clear that these systems are doomed to a shallow understanding that will never Approximate the full-bodied thinking we see in humans.
很明显,AI系统注定只能肤浅地理解世界,永远不会接近人类所具有的全面思维 。


推荐阅读