谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

量子位 | 公众号 QbitAI
谷歌扳回一局!
在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告 , 结果显示:
在37个视觉理解任务上,Gemini-Pro表现出了和GPT-4V相当的能力 。
在多模态专有基准MME上,Gemini-Pro的感知和认知综合表现则直接获得了1933.4的高分,超越GPT-4V(1926.6) 。

谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
此前,CMU测评发现Gemini-Pro的综合能力居然和GPT-3.5差不多 。
现在 , 在多模态这个一大主推的卖点上,Gemini-Pro可算是扳回一局 。
那么具体如何?
测评报告一共128页,咱们就挑重点来看 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
Gemini-Pro的首份多模态能力报告来了
这份测评主要是对Gemini-Pro的视觉理解能力进行评估 。
一共涵盖基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域,在37个细分任务项上进行定性比较 。
定量评估则在专为多模态大语言模型专门设计的评测基准MME上展开 。
首先来看定量测试结果 。
MME上综合表现比GPT-4V强
MME基准包含两大类任务 。
一个是感知,涵盖目标存在性判断、物体计数、位置关系、颜色判断、OCR识别、海报识别、名人识别、场景识别、地标识别和艺术品识别等 。
一个是认知 , 涵盖常识推理、数值计算、文本翻译和代码推理等 。
结果如下:
可以看到Gemini-Pro和GPT-4V可谓“各有所长” 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
而计分显示,Gemini-Pro的总分为1933.4,比GPT-4V(1926.6)要高那么一点点 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
具体来看:
1、Gemini-Pro在文本翻译、颜色/地标/人物识别、OCR等任务中表现突出;
2、GPT-4V在名人识别任务上的得分为0,主要是因为拒绝回答名人相关的问题;
3、无论是Gemini还是GPT-4V在位置识别任务上表现都不佳,表明他们对空间位置信息不敏感;
4、开源模型SPHINX在感知任务上与GPT-4V以及Gemini平齐甚至更优,但认知和两者有较大差距 。
下面就是四大项任务上的定性结果了 。
基础感知
感知能力直接影响模型在高阶任务中的能力,因为它决定了模型获取和处理原始视觉输入的准确性和有效性 。
报告中分别测试了模型的对象级感知能力、场景级感知能力和基于知识的感知能力 。
具体一共10个细分任务:
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
鉴于篇幅有限,我们在此只展示其中5个:
1、空间关系
都不分左右 。但GPT-4V可以通过上下文少样本学习这项任务,然后做出正确回答 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
2、物体计数
简单样例整体还OK,但复杂一点的全军覆没 。不过在数NBA篮球运动员时,Gemini-Pro的答案已经相当接近了(正确为42个) 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
3、视觉错觉
左侧样例中,两个梨实际上具有相同的亮度 。Gemini Pro正确识别,而GPT-4V和SPHNIX被欺骗 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
4、场景理解
模型都能够描绘场景中的关键视觉元素 。相比之下 , GPT-4V显示出优越的性能,描述更加详细,并且幻觉的实例也更少 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
5、视频场景理解
从视频中抽取三个时刻的关键帧 , Gemini Pro能够将不同帧的信息整合成一个连贯的场景描述 。
而GPT-4V只是逐帧描述图像的内容 。相比之下,SPHNIX的描述并没有表现出对图像序列的全面理解 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
高级认知
这类任务需要模型进行深入的推理、解决问题和决策 。
在此,报告中分别测试了模型的富含文本的视觉推理能力、抽象视觉推理能力、解决科学问题能力、情感分析能力、智力游戏能力 。具体包括13项细分任务,同样限于篇幅我们只展示其中几项 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
1、代码生成
将结构化视觉内容转换为相应的代码是多模态大模型的一项重要技能 , 在此分别测试了模型识别公式生成LaTex代码和识别网页生成html代码的能力 。


推荐阅读