GPT-4完成正确率仅6%，北大等提出首个“多轮、多模态”PPT任务完成基准PPTC( 二 ) _多模态

文章插图
表2：GPT-4和基于GPT-4模型的算法的结果。‘CoT’和‘ToT’分别是思维链和思维树算法
04 三个PPTC上的主要挑战
进一步的，本文分析得出大模型在PPTC上遇到的三个主要的挑战：
错误累计导致大模型单元层面表现糟糕
尽管诸如GPT-4这样的大模型在轮次层面表现较好，但当本文测试大模型在包含多个轮次的单元层次表现时，大模型表现普遍糟糕。
如表1所示，在创建新文档任务中，GPT-4只正确完成了不到百分之23的多轮次单元。
大模型处理长PPT模版的能力欠佳
在PPT文档编辑任务中，大模型需要基于给予的长PPT模板完成用户指令。

文章插图
图4：创建新的PPT文件任务（任务1）和编辑PPT模板任务（任务2）的分析结果。在子图（a）中，本图展示了涉及图表、表格、图片、位置和纯文本的指令的平均基于轮次的准确度。在子图（b）中，本图展示了GPT-4的四种常见错误的比例。
然而，如表1所示，即使是GPT-4，也只实现了百分之38的轮次正确率，只完成了6%的多轮次单元。如图4（b）所示，对文档的误解成为编辑任务的主要错误原因。
多模态指令提高了任务难度
如图4（a）所示，大模型在处理图表，表格，图像，空间位置相关的指令上的表现远不如处理只涉及纯文本操作的指令表现，特别是涉及到移动空间位置的指令。
如图4（b）所示，糟糕的空间位置感知成为创建新文档任务的主要错误原因。
05 总结
1．本文提出了PowerPoint任务完成评估测试（PPTC），用于衡量在 PowerPoint 官方软件中的语言模型的任务完成性能。这一基准测试包含了279个多轮会话单元，涵盖了复杂的多模式环境中的数百个多模式指令。
2．本文提出了PPTX-Match评估系统，用于自动测量语言模型在PPTC中的性能。本文测试了3个闭源语言模型和6个开源语言模型，发现GPT-4是所有语言模型中性能最强的。
3．本文进一步发现了三个关键的错误因素：会话中的错误累积、长的PPT模板处理和多模态感知。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战。

GPT-4完成正确率仅6%，北大等提出首个“多轮、多模态”PPT任务完成基准PPTC( 二 )

推荐阅读

独自快乐|分布式课堂：关于可计算金融应用于Defi预言机的分享

新浪网vivo秦飞：6G不等于5G+AI手机未来不会被取代

阿虎汽车|！，@临沂车主！境内新增部分测速、抓拍设备

假如爱有天意

#高速#好消息：宁洛高速蚌埠至滁州段计划明年启动改扩建

【】全球新冠死亡病例近70万世卫组织称疫情仍可控制

拼多多|快递行业的“拼多多”，价格仅“四通一达”一半，月包裹量破1.5亿

【骁龙865】64万跑分+144Hz高刷+5800毫安大电池，骁龙865Plus旗舰7月发布

出镜|范冰冰最新大片曝光穿黑纱裙赤脚出镜

烹饪|入秋以后，吃藕必不可少！补充营养，多种做法，样样美味

「信用记录关爱日」2020年网贷“寒冬”即将到来，专家：借款人的运气来了！

大S|具俊晔突然登上热搜，没有替大S发声也没有回应买房传闻，而是现身夜店拼命打碟

穿搭|穷就不可以精致了吗?精致一定要花很多钱吗？

黄峥卸任拼多多CEO|黄峥卸任拼多多CEO，由公司原CTO陈磊接任CEO一职

鬼刀冰小手|身材略微发福，居住豪宅曝光超气派，唐艺昕产后两个月首现身

中国红茶大红袍价格,大红袍茶以属于青茶

微语录|很难有抉择是可以两全的

感冒了吃什么好的快感冒好得快的小妙招

杭州图书馆恢复正常开放无须戴口罩，地铁、公交取消查健康码

影视口碑榜▲蔡徐坤开启老年生活，爱豆现实生活是什么样？刘亦菲爱看土味视频