GPT-4完成正确率仅6%,北大等提出首个“多轮、多模态”PPT任务完成基准PPTC( 二 )


GPT-4完成正确率仅6%,北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

文章插图
表2:GPT-4和基于GPT-4模型的算法的结果 。‘CoT’和‘ToT’分别是思维链和思维树算法
04 三个PPTC上的主要挑战
进一步的,本文分析得出大模型在PPTC上遇到的三个主要的挑战:
错误累计导致大模型单元层面表现糟糕
尽管诸如GPT-4这样的大模型在轮次层面表现较好,但当本文测试大模型在包含多个轮次的单元层次表现时,大模型表现普遍糟糕 。
如表1所示,在创建新文档任务中,GPT-4只正确完成了不到百分之23的多轮次单元 。
大模型处理长PPT模版的能力欠佳
在PPT文档编辑任务中,大模型需要基于给予的长PPT模板完成用户指令 。
GPT-4完成正确率仅6%,北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

文章插图
图4: 创建新的PPT文件任务(任务1)和编辑PPT模板任务(任务2)的分析结果 。在子图(a)中,本图展示了涉及图表、表格、图片、位置和纯文本的指令的平均基于轮次的准确度 。在子图(b)中,本图展示了GPT-4的四种常见错误的比例 。
然而,如表1所示,即使是GPT-4,也只实现了百分之38的轮次正确率,只完成了6%的多轮次单元 。如图4(b)所示,对文档的误解成为编辑任务的主要错误原因 。
多模态指令提高了任务难度
如图4(a)所示,大模型在处理图表,表格,图像,空间位置相关的指令上的表现远不如处理只涉及纯文本操作的指令表现 , 特别是涉及到移动空间位置的指令 。
如图4(b)所示,糟糕的空间位置感知成为创建新文档任务的主要错误原因 。
05 总结
1. 本文提出了PowerPoint任务完成评估测试(PPTC),用于衡量在 PowerPoint 官方软件中的语言模型的任务完成性能 。这一基准测试包含了279个多轮会话单元,涵盖了复杂的多模式环境中的数百个多模式指令 。
2. 本文提出了PPTX-Match评估系统,用于自动测量语言模型在PPTC中的性能 。本文测试了3个闭源语言模型和6个开源语言模型 , 发现GPT-4是所有语言模型中性能最强的 。
3. 本文进一步发现了三个关键的错误因素:会话中的错误累积、长的PPT模板处理和多模态感知 。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战 。




推荐阅读