文章插图
表2:GPT-4和基于GPT-4模型的算法的结果 。‘CoT’和‘ToT’分别是思维链和思维树算法
04 三个PPTC上的主要挑战
进一步的,本文分析得出大模型在PPTC上遇到的三个主要的挑战:
错误累计导致大模型单元层面表现糟糕
尽管诸如GPT-4这样的大模型在轮次层面表现较好,但当本文测试大模型在包含多个轮次的单元层次表现时,大模型表现普遍糟糕 。
如表1所示,在创建新文档任务中,GPT-4只正确完成了不到百分之23的多轮次单元 。
大模型处理长PPT模版的能力欠佳
在PPT文档编辑任务中,大模型需要基于给予的长PPT模板完成用户指令 。
文章插图
图4: 创建新的PPT文件任务(任务1)和编辑PPT模板任务(任务2)的分析结果 。在子图(a)中,本图展示了涉及图表、表格、图片、位置和纯文本的指令的平均基于轮次的准确度 。在子图(b)中,本图展示了GPT-4的四种常见错误的比例 。
然而,如表1所示,即使是GPT-4,也只实现了百分之38的轮次正确率,只完成了6%的多轮次单元 。如图4(b)所示,对文档的误解成为编辑任务的主要错误原因 。
多模态指令提高了任务难度
如图4(a)所示,大模型在处理图表,表格,图像,空间位置相关的指令上的表现远不如处理只涉及纯文本操作的指令表现 , 特别是涉及到移动空间位置的指令 。
如图4(b)所示,糟糕的空间位置感知成为创建新文档任务的主要错误原因 。
05 总结
1. 本文提出了PowerPoint任务完成评估测试(PPTC),用于衡量在 PowerPoint 官方软件中的语言模型的任务完成性能 。这一基准测试包含了279个多轮会话单元,涵盖了复杂的多模式环境中的数百个多模式指令 。
2. 本文提出了PPTX-Match评估系统,用于自动测量语言模型在PPTC中的性能 。本文测试了3个闭源语言模型和6个开源语言模型 , 发现GPT-4是所有语言模型中性能最强的 。
3. 本文进一步发现了三个关键的错误因素:会话中的错误累积、长的PPT模板处理和多模态感知 。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战 。
推荐阅读
- 让 GPT-4 修改文件,真的太难了!
- 用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手
- 医保出院当天结算,天津异地医保是出院当天就完成结算吗
- 微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释
- 大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0
- 百度网盘、百度文库等产品已完成AI重构
- 碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星
- 梦见完成任务是什么意思 梦到完成任务是什么意思
- 48岁陶红病逝,乐嘉带9岁女儿跪拜祈福完成前妻遗愿
- Lisa疯马秀舞台曝光,跳到身上只剩一条链子,疑欠10亿未完成被强迫