LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」( 二 )


单词和句子的固有上下文性质是了解LLM如何运行的关键 。
神经网络通常将知识表示为know-how,即对上下文高度敏感,并能同时找到具体和抽象的规则,实现对任务相关的输入进行细微处理 。
在LLM中,整个过程涉及到系统在现有文本的多个层次上识别模式,既可以看到单个单词在段落中是如何连接的,也可以看到句子是如何连接在一起以构建更大的篇章段落 。
其结果是,LLM对语言的理解肯定是语境化的,在理解单词时不是根据根据字典含义,而是根据其在不同句子集合中所起的作用 。
并且,许多单词的运用,比如carbonizer, menu, debugging, electron等,几乎只在特定领域使用,即使在一个孤立的句子中,该单词也会带有上下文语义 。
简而言之,LLM的训练过程就是学习每个句子的背景知识,寻找周围的单词和句子来拼凑上下文,使得模型能够将不同句子或短语的无限可能性作为输入,并想出合理的方法来继续对话或续写文章等 。
一个接受过所有人类所写的文章进行训练的系统,应该可以具备对话所需的通用理解能力 。
LLM学到的只是浅层知识有些人并不认为LLM初步具备「理解」能力或所谓「智能」,批评者们认为这些系统只是模仿的比较好而已,因为LLM对语言的理解仍然十分肤浅,就像在教室里故作高深的学生,实际上他们并不知道自己在说什么,只是对教授或课文的无意识模仿 。
LLM对一切都有这种肤浅的理解 。像GPT-3这样的系统是通过屏蔽句子或段落中的未来单词来训练的,并迫使机器猜测最有可能的单词,然后纠正错误的猜测 。该系统最终能够熟练地猜测最有可能的单词,使其成为一个有效的预测系统 。

LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

文章插图
比如GPT-3,只是通过对句子中的某些词进行遮罩,要求模型猜测具体的单词,并进行纠正而已,最终训练成为一个预测系统 。
不过这种方式也让我们对语言有了进一步的理解,实际上,对于任何问题或谜题来说,通常只有少数几个正确答案,以及无数个错误答案.
对于特定的语言技能来说,比如解释笑话、单词、逻辑难题等,实际上就是预测问题的正确的答案,进而使机器能够执行缩写、重写、复述等其他需要语言理解的任务 。
正如符号AI所预期的那样,知识的表征与上下文相关,在给定前提的情况下输出一个合理的句子 。
Abandoning the view that all knowledge is linguistic permits us to realize how much of our knowledge is nonlinguistic.
放弃所有知识都是语言的观点,可以让我们认识到有多少知识不是用语言来表示的 。
但是,从语言上解释一个概念的能力与实际使用的能力是不同的 。
比如一个语言系统可以解释如何执行某个算法,但它并不具备执行能力;它也可以解释哪些单词是冒犯性的,但并不能使用 。
进一步分析还可以发现,语言模型的注意力和记忆力只有一小段时间,更倾向于关注前两句话,或是下一句话 。
当涉及到复杂的对话技巧,如积极倾听、回忆和重温先前的对话、坚持一个主题以提出一个特定的观点,同时避开干扰因素等,语言模型的记忆力缺陷就暴露出来了,聊几分钟就会发现它们前后口径不一致等问题 。
如果撤回太多,系统就会重启,接受新观点,或者承认它相信你所说的一切,形成一个连贯世界观所必需的理解远远超出了语言模型的知识范围 。
不止语言虽然书籍包含了大量可以解压和使用的信息,但其他格式的信息也很重要,比如宜家的使用说明书上只有图纸没有文字,研究人员经常先看论文中的图表,掌握论文结构后再浏览文字;游客可以沿着地图上的红线或绿色线在市区内导航等 。
人类在探索世界的过程中学到了很多东西,一个只接受语言训练的系统,即使从现在开始训练到宇宙的尽头,也无法拥有接近人类的智能,
语言之所以重要,是因为它能够以小格式传达大量信息,特别是在印刷机和互联网发明之后,可以很轻松地复制和大规模应用 。
但是压缩语言信息并不是免费的:要破译一段晦涩难懂的文字需要很大的努力 。
人文学科的课程可能需要大量的课外阅读,这也可以解释为什么一台接受过语言训练的机器可以知道这么多,却又了解得这么少 。
它可以接触到人类的所有知识,但书籍中的每一句话又蕴含了大量的信息,理解起来依然很难 。
语言模型里没有幽灵当然,语言模型的缺陷并不意味着机器很愚蠢,只能说明它们的智能程度存在着内在限制 。


推荐阅读