揭秘大模型背后的知识储存与提取技术( 二 )


揭秘大模型背后的知识储存与提取技术

文章插图
图 3 显示,bioS single 预训练模型的 QA 正确率仅为 9.7%,而 bioS multi5+permute 预训练模型的正确率高达 96.6% 。这个显著的提升与模型的微调、大小或训练时间无关 , 而是与知识在预训练 (pretrain) 中的呈现方式有关,即知识如何被大模型 “背诵” 。
研究还发现,将传记分为名人 (celebrity) 和少数群体 (minority) , 只要名人传记有知识增强,即使少数群体没有,模型对少数群体的知识提取正确率也会大幅提升 —— 当然,最好的效果还是需要对所有数据进行知识增强 。
揭秘大模型背后的知识储存与提取技术

文章插图
那么为何背诵不同数据后,模型的问题回答能力差异大?为何反复背诵名人传记,可以让少数群体的知识提取能力也增强?原因是由于模型采取了不同的记忆方式 。
作者通过两种线性探针 (linear probing) 深入探讨了模型的记忆知识的原理 。我们来看其中一种叫 P 探针 (P-probing) 的方法 。
在 P 探针中,我们输入传记条目到预训练模型,训练一个线性分类器预测六个目标属性(如大学、专业等) 。我们想看模型是否能在早于属性的位置提取这些信息 。如果分类器在人名后立即显示对 “工作单位” 有高准确率,说明模型直接学习了 “Anya 的雇主是 Meta” 。如果只在传记结尾达到高准确率,可能模型用了有缺陷的记忆方法,例如 “某人生日是 1996 年 10 月 2 日,大学是 MIT , 因此雇主是 Meta” 。
P 探针的试验设计是这样的 。找出每个传记中 6 个属性首次出现的位置,然后在这些位置的前一个位置,训练一个线性分类器来预测每个目标属性 。这就产生了 36 个分类任务 。

揭秘大模型背后的知识储存与提取技术

文章插图
图 5:P 探针试验结果显示,预训练数据集的知识增强使知识被存在更早的位置,部分甚至直接存储在人名上 。模型是否能通过微调回答问题,与预训练时是否将信息直接存储在人名上有关(对比图 3 和图 5) 。
P 探针试验结果显示 , 自然语言模型在预训练时可以通过人名记住信息以实现压缩,也可以通过其他信息(如 “在 MIT 就读并且生日是 1996 年 10 月 2 日的人的工作单位是...”)记忆 。虽然第二种记忆方式对人来说 “不自然”,但对模型来说两种方法的压缩比无异 。如果模型采用第二种方式记住信息,训练结束后将无法通过微调回答问题 。而通过知识增强 , 预训练模型会逐渐倾向于学会使用第一种记忆方式 。
有人可能会争论,上述 “知识提取” 失败可能是由于自回归 (autoregressive) 语言模型如 GPT 的单向性 。实际上,双向语言模型如 BERT 在知识提取上更差,对 “Meta Platform” 这类多词组知识只能存储,无法提取 。有兴趣的读者可以参考论文第 6 章 。
 
总的来说,语言模型是否能回答 “知识提取” 问题,不仅取决于 “无损压缩”,还与 “如何在模型中压缩” 有关 。论文强调,预训练过程中对关键但少见的数据进行知识增强是必要的(如使用 ChatGPT 进行多次改写) 。如果没有这一步,无论如何努力微调 , 已预训练完的模型虽然无损压缩了训练数据,但是还是可能再也无法提取那些知识了!
结语
如何理解自然语言模型的工作原理?大多数研究者通过与 GPT-4 等模型对话,推测其能力 。然而,《语言模型物理学》系列论文的作者提出了一种更精确的方法,通过精细设计训练数据和可控实验,探究 Transformer 的内部机制,解释其处理 AI 任务的能力 。
在《Part 3.1:知识的储存与提取》中,作者精确测试了模型对不同数据的反应,找到了模型学习知识和能力与训练数据的准确关系 。
他们还发布了《Part 3.2:知识的操作》,进一步研究了模型如何在特定情况下操作知识 。例如 , 如果大模型记住了《静夜思》,能否通过微调使其推理出《静夜思》的最后一句是 “低头思故乡”?我们很快讲为大家带来后续报道 。




推荐阅读