自然语言模型的背诵 (memorization) 并不等于理解 。即使模型能完整记住所有数据,也可能无法通过微调 (f.NETune) 提取这些知识,无法回答简单的问题 。
随着模型规模的增大,人们开始探索大模型是如何掌握大量知识的 。一种观点认为这归功于 “无损压缩”,即模型通过大量训练,记忆更多内容以提高预测精度 。但 “无损压缩” 真的能让大模型理解这些知识吗?朱泽园 (MetaAI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.1:知识的储存与提取》深入探讨了这个问题 。
文章插图
【揭秘大模型背后的知识储存与提取技术】论文地址:https://arxiv.org/pdf/2309.14316.pdf
对于人类,有句话叫 “书读百遍,其意自现” 。这句话虽不适用于所有知识 , 但对于简单知识,只要我们能记住相关书籍,就能轻松回答相关问题 。例如,只要我们记住古诗 “静夜思”,就能轻松回答 “诗里把月光比作了什么?”;只要我们记住百度百科关于 “出师表 / 创作背景” 那一段,就能轻松回答 “出师表的创作时间是什么?” 。那么 , 大模型是否也能做到这一点呢?
文章插图
GPT-4 虽然能理解并复述与问题相关的段落,但为何它无法像人类一样回答简单的问题呢?是因为模型不够大,记忆力不足,还是训练后的微调不够?都不是!文章指出 , 即使自然语言模型足够大,训练时间足够长,微调也足够充分,但它仍可能无法回答人类认为简单的问题 。这其中的深层原因,与知识在预训练数据集 (pretrain data) 中的呈现方式有关 。同一知识,需要在预训练数据集中多次出现 , 且具有足够的 “多样性” , 微调后才更容易被提取出来 。
为了证实这一点,两位作者创建了一个包含 100k 个人物传记的数据集,每个人物有一个传记条目 , 包含人名和六个固定属性:出生日期,出生地,大学专业 , 大学名称,工作地点,工作单位 。他们设计了 BIOS 和 BioR 两种数据集 , BioS 的每个句子选自 50 种固定模板 , BioR 则用 LLaMA-30B 进行改写 , 更逼真,多样性更大 。两种数据集的结果一致,下面以 BioS 为例,展示一个样例条目:
Anya Briar Forger was born on October 2, 1996. She spent her early years in Princeton, NJ. She received mentorship and guidance from faculty members at MIT. She completed her education with a focus on Communications. She had a professional role at Meta Platforms. She was employed in Menlo Park, CA.
文章插图
一个自然语言模型即使完美地预训练 (pretrain) 了 100k 个人的自传 , 也无法通过 QA 微调 (finetuning) 准确回答 “Anya 本科念了哪所学校” 这样的问题 。如图 2 所示,即使使用 50k 的人作为 QA 微调训练数据,尝试各种微调方法,包括 LoRA,模型在剩下的 50k 人上的正确率也只有 10% 。即使使用了 682M 的模型(比人数大 7000 倍),训练了 1350 遍,作者甚至加入了 WikiBook 等标准 NLP 预训练数据,正确率也没有提升 。可见 “大力出奇迹” 并没有发生 。
因此,大模型并不一定能掌握或提取 “无损压缩” 的知识 。那么 GPT-4 是如何掌握知识的呢?为了研究这一问题,两位作者对预训练集进行改动 —— 作者称之为知识增强:
1、多样性 - multiM:为每个人创建 M 个传记条目 , 使用不同的叙述语言但保留相同的信息(每句话一共有 100 种叙述方法,每条传记的每句话从中选取一种)
2、随机排列 - permute:对传记句子进行随机排列
3、全名 - fullname:将传记里所有代词、姓、名替换全名
作者把原始数据集称为 bioS single,并试验了 15 种知识增强组合 。例如,bioS multi5+permute 表示每人有 5 个传记,语序打乱 。以下是 bioS multi5+permute 的一个示例:
Anya Briar Forger originated from Princeton, NJ. She dedicated her studies to Communications. She gained work experience in Menlo Park, CA. She developed her career at Meta Platforms. She came into this world on October 2, 1996. She pursued advanced coursework at MIT.
对于人和大模型,记住 bioS single 和 bioS multi5+permute 两个数据集的难度几乎相同(它们信息量相同,并且每句话都是选自 50 个模板) 。那么 , 如果在这个新的知识增强数据集上进行预训练 (pretrain),然后 QA 微调,会有什么新的表现吗?
推荐阅读
- 大模型助力高效创建知识图谱
- 揭秘图像识别系统Noisy Student
- 新主播周淑怡一天内“揭开真相”,背后频道主播损人不利己
- 曹格13岁女儿暴风式成长,穿露背晚装显成熟,保留特色八字眉
- 袁咏仪儿子事件背后的教育难题:香港如何培养下一代的国家认同感?
- MySQL 事务死锁问题排查
- 如何构建基于大模型的App
- 人工智能大模型布局千行百业
- 当红女星穿中式衣冠不整,扣子没系裤腿脏,和老外勾肩搭背惹争议
- 退休金计算公式揭秘:如何最大化养老金待遇?