揭秘大模型背后的知识储存与提取技术( 二 ) _大模型

文章插图
图 3 显示，bioS single 预训练模型的 QA 正确率仅为 9.7%，而 bioS multi5+permute 预训练模型的正确率高达 96.6% 。这个显著的提升与模型的微调、大小或训练时间无关，而是与知识在预训练 (pretrain) 中的呈现方式有关，即知识如何被大模型 “背诵” 。
研究还发现，将传记分为名人 (celebrity) 和少数群体 (minority) ，只要名人传记有知识增强，即使少数群体没有，模型对少数群体的知识提取正确率也会大幅提升 —— 当然，最好的效果还是需要对所有数据进行知识增强。

文章插图
那么为何背诵不同数据后，模型的问题回答能力差异大？为何反复背诵名人传记，可以让少数群体的知识提取能力也增强？原因是由于模型采取了不同的记忆方式。
作者通过两种线性探针 (linear probing) 深入探讨了模型的记忆知识的原理。我们来看其中一种叫 P 探针 (P-probing) 的方法。
在 P 探针中，我们输入传记条目到预训练模型，训练一个线性分类器预测六个目标属性（如大学、专业等）。我们想看模型是否能在早于属性的位置提取这些信息。如果分类器在人名后立即显示对 “工作单位” 有高准确率，说明模型直接学习了 “Anya 的雇主是 Meta” 。如果只在传记结尾达到高准确率，可能模型用了有缺陷的记忆方法，例如 “某人生日是 1996 年 10 月 2 日，大学是 MIT ，因此雇主是 Meta” 。
P 探针的试验设计是这样的。找出每个传记中 6 个属性首次出现的位置，然后在这些位置的前一个位置，训练一个线性分类器来预测每个目标属性。这就产生了 36 个分类任务。

文章插图
图 5：P 探针试验结果显示，预训练数据集的知识增强使知识被存在更早的位置，部分甚至直接存储在人名上。模型是否能通过微调回答问题，与预训练时是否将信息直接存储在人名上有关（对比图 3 和图 5）。
P 探针试验结果显示，自然语言模型在预训练时可以通过人名记住信息以实现压缩，也可以通过其他信息（如 “在 MIT 就读并且生日是 1996 年 10 月 2 日的人的工作单位是...”）记忆。虽然第二种记忆方式对人来说 “不自然”，但对模型来说两种方法的压缩比无异。如果模型采用第二种方式记住信息，训练结束后将无法通过微调回答问题。而通过知识增强，预训练模型会逐渐倾向于学会使用第一种记忆方式。
有人可能会争论，上述 “知识提取” 失败可能是由于自回归 (autoregressive) 语言模型如 GPT 的单向性。实际上，双向语言模型如 BERT 在知识提取上更差，对 “Meta Platform” 这类多词组知识只能存储，无法提取。有兴趣的读者可以参考论文第 6 章。

总的来说，语言模型是否能回答 “知识提取” 问题，不仅取决于 “无损压缩”，还与 “如何在模型中压缩” 有关。论文强调，预训练过程中对关键但少见的数据进行知识增强是必要的（如使用 ChatGPT 进行多次改写）。如果没有这一步，无论如何努力微调，已预训练完的模型虽然无损压缩了训练数据，但是还是可能再也无法提取那些知识了！
结语
如何理解自然语言模型的工作原理？大多数研究者通过与 GPT-4 等模型对话，推测其能力。然而，《语言模型物理学》系列论文的作者提出了一种更精确的方法，通过精细设计训练数据和可控实验，探究 Transformer 的内部机制，解释其处理 AI 任务的能力。
在《Part 3.1：知识的储存与提取》中，作者精确测试了模型对不同数据的反应，找到了模型学习知识和能力与训练数据的准确关系。
他们还发布了《Part 3.2：知识的操作》，进一步研究了模型如何在特定情况下操作知识。例如，如果大模型记住了《静夜思》，能否通过微调使其推理出《静夜思》的最后一句是 “低头思故乡”？我们很快讲为大家带来后续报道。