当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」( 二 )


文章插图
理论分析
我们通过理论分析展示了为什么分治策略能够提升大语言模型的分辨力 。
此前的工作(Feng et al 2023, Merrill & Sabharwal 2023)已经证明 , 现有的通用大语言模型所普遍采用的固定深度与对数精度的预训练 Transformer,存在表达能力上的限制 。
具体来说,假设 NC1 类问题严格难于 TC0 类时(TC0 和 NC1 是并行计算理论中的两大类问题 , 其关系类似 P 与 NP),那么这些 Transformer 模型在处理 NC1 完全问题时,其模型宽度需要以超多项式(如指数)级别的速度随问题规模增长 。NC1 完全问题包含了很多常见的问题,比如两色 2 叉子树匹配问题 。
而我们此前提到的评估两段文本是否存在事实性冲突的问题,恰好可以被视为判断总结文本所对应的语义树是否匹配新闻材料的语义树的一棵子树 。因此 , 当总结性文本足够长时,大语言模型会面临表达能力不足的问题 。我们的理论分析严格证明了,在基于分治的提示策略下,存在一个宽度和深度均为常数的 Transformer,可以在 log(n)的时间复杂度下解决任意规模的两色 2 叉子树匹配问题
实验结果
我们考虑了三个任务:大整数乘法、幻觉检测、新闻验证 。我们基于 GPT-3.5-Turbo 和 GPT-4 进行评估 。对于大整数乘法 , 此前的工作已经证明 , ChatGPT 难以正确计算 4 位以上的整数乘法问题 。因此我们使用 5 位乘 5 位的乘法来验证我们的提示策略的有效性 。
结果如下图所示,可以看出,无论是准确率指标还是编辑距离指标,我们的方法相对其他 baseline 都具有明显优势 。

当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

文章插图
对于幻觉检测,我们采用 HaluEval 数据集中的 Summarization Hallucination Detection 子集 。对于该子集,模型需要根据一段新闻材料判断一段总结性文本是否包含幻觉 。我们将总结性文本划分为单句并分别进行检测 。
检测结果如下,可以看到,我们的方法相对 baseline 更好的平衡了精确度和召回率,从而取得了更好的准确率和 F1 score 。
当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

文章插图
对于新闻验证,我们基于 SciFact 数据集构造了一个段落验证数据集 。对于该数据集,模型需要根据一篇学术论文中的段落判断一段新闻报道是真新闻还是假新闻 。我们将新闻报道划分为单句并分别进行检测 。
检测结果如下,可以看到,我们的方法相对 baseline 取得了更好的准确率和 G-Mean score 。
当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

文章插图
引用
Merrill, W. and Sabharwal, A. The parallelism tradeoff: Limitations of log-precision transformers. Transactions of the Association for Computational Linguistics.
Feng, Guhao, et al. "Towards revealing the mystery behind chain of thought: a theoretical perspective." Advances in Neural Information Processing Systems 36 (2024).




推荐阅读