LeCun再泼冷水：只会看书的语言模型永远无法实现「类人智能」( 二 ) _语言模型

单词和句子的固有上下文性质是了解LLM如何运行的关键。
神经网络通常将知识表示为know-how，即对上下文高度敏感，并能同时找到具体和抽象的规则，实现对任务相关的输入进行细微处理。
在LLM中，整个过程涉及到系统在现有文本的多个层次上识别模式，既可以看到单个单词在段落中是如何连接的，也可以看到句子是如何连接在一起以构建更大的篇章段落。
其结果是，LLM对语言的理解肯定是语境化的，在理解单词时不是根据根据字典含义，而是根据其在不同句子集合中所起的作用。
并且，许多单词的运用，比如carbonizer, menu, debugging, electron等，几乎只在特定领域使用，即使在一个孤立的句子中，该单词也会带有上下文语义。
简而言之，LLM的训练过程就是学习每个句子的背景知识，寻找周围的单词和句子来拼凑上下文，使得模型能够将不同句子或短语的无限可能性作为输入，并想出合理的方法来继续对话或续写文章等。
一个接受过所有人类所写的文章进行训练的系统，应该可以具备对话所需的通用理解能力。
LLM学到的只是浅层知识有些人并不认为LLM初步具备「理解」能力或所谓「智能」，批评者们认为这些系统只是模仿的比较好而已，因为LLM对语言的理解仍然十分肤浅，就像在教室里故作高深的学生，实际上他们并不知道自己在说什么，只是对教授或课文的无意识模仿。
LLM对一切都有这种肤浅的理解。像GPT-3这样的系统是通过屏蔽句子或段落中的未来单词来训练的，并迫使机器猜测最有可能的单词，然后纠正错误的猜测。该系统最终能够熟练地猜测最有可能的单词，使其成为一个有效的预测系统。

文章插图
比如GPT-3，只是通过对句子中的某些词进行遮罩，要求模型猜测具体的单词，并进行纠正而已，最终训练成为一个预测系统。
不过这种方式也让我们对语言有了进一步的理解，实际上，对于任何问题或谜题来说，通常只有少数几个正确答案，以及无数个错误答案.
对于特定的语言技能来说，比如解释笑话、单词、逻辑难题等，实际上就是预测问题的正确的答案，进而使机器能够执行缩写、重写、复述等其他需要语言理解的任务。
正如符号AI所预期的那样，知识的表征与上下文相关，在给定前提的情况下输出一个合理的句子。
Abandoning the view that all knowledge is linguistic permits us to realize how much of our knowledge is nonlinguistic.
放弃所有知识都是语言的观点，可以让我们认识到有多少知识不是用语言来表示的。
但是，从语言上解释一个概念的能力与实际使用的能力是不同的。
比如一个语言系统可以解释如何执行某个算法，但它并不具备执行能力；它也可以解释哪些单词是冒犯性的，但并不能使用。
进一步分析还可以发现，语言模型的注意力和记忆力只有一小段时间，更倾向于关注前两句话，或是下一句话。
当涉及到复杂的对话技巧，如积极倾听、回忆和重温先前的对话、坚持一个主题以提出一个特定的观点，同时避开干扰因素等，语言模型的记忆力缺陷就暴露出来了，聊几分钟就会发现它们前后口径不一致等问题。
如果撤回太多，系统就会重启，接受新观点，或者承认它相信你所说的一切，形成一个连贯世界观所必需的理解远远超出了语言模型的知识范围。
不止语言虽然书籍包含了大量可以解压和使用的信息，但其他格式的信息也很重要，比如宜家的使用说明书上只有图纸没有文字，研究人员经常先看论文中的图表，掌握论文结构后再浏览文字；游客可以沿着地图上的红线或绿色线在市区内导航等。
人类在探索世界的过程中学到了很多东西，一个只接受语言训练的系统，即使从现在开始训练到宇宙的尽头，也无法拥有接近人类的智能，
语言之所以重要，是因为它能够以小格式传达大量信息，特别是在印刷机和互联网发明之后，可以很轻松地复制和大规模应用。
但是压缩语言信息并不是免费的：要破译一段晦涩难懂的文字需要很大的努力。
人文学科的课程可能需要大量的课外阅读，这也可以解释为什么一台接受过语言训练的机器可以知道这么多，却又了解得这么少。
它可以接触到人类的所有知识，但书籍中的每一句话又蕴含了大量的信息，理解起来依然很难。
语言模型里没有幽灵当然，语言模型的缺陷并不意味着机器很愚蠢，只能说明它们的智能程度存在着内在限制。

LeCun再泼冷水：只会看书的语言模型永远无法实现「类人智能」( 二 )

推荐阅读

蒸鸡蛋冷水蒸还是开水

北方国际观察|俄军将赴当地军演，东地中海局势波澜再起：美取消对塞武器禁运后

祈门红茶种类,祈门红茶红盒装

大众日报|“绝不放过你”！张店公安第二部微电影“开机”

巴菲特@巴菲特的指标表明：美股还有一次深跌

舒淇|舒淇出道24年，体重不超100斤，坦言：想要减肥，4吃4不吃

星座小桔子|幸福爱情来临，7月姻缘美满，生活事业双丰收，此四大生肖

老民警带病坚持执勤16小时，输完液又上岗

少年一梦|摩托罗拉对讲机电池—安全、牢固、经久耐用

暖暖妈妈|网友酸了：吃防腐剂了吗？，“冻龄老爸”和女儿5到11岁合影走红

汉堡|汉堡王遭央视曝光后道歉：是我们管理的失误，将配合调查

【奇瑞】2020年6月汽车投诉排行榜，第一名是自主热门SUV！

庐山云雾茶的产地环境,喝庐山云雾茶的好处

四川一民警营救落水女孩时失联|四川一民警营救落水女孩时失联！期盼战友平安归来！

科技部通报九起论文造假案相关责任人已严肃处理

第一财经|正式就位！特朗普提名的第三位大法官最快今天投入工作

新氧美容微整形APP|想和刘敏涛一样50岁还能做摇滚女孩应该怎么做？

7款睡眠调理养生汤

莴笋炒辣椒的做法是什么？

搞笑奇葩菌▲伴娘付出了沉痛的代价，搞笑GIF：为了抢到捧花