谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告( 二 )


Gemini Pro和GPT-4V在公式识别上表现出更好的结果,但仍然会错误识别一些小字符或符号 。

谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
三个模型的识别网页生成相应HTML代码的能力仍然存在很大的改进空间 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
2、抽象视觉刺激
对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力 。GPT-4V展示了最好的抽象性能,提供了对象如何由形状组成的详细描述 。Gemini Pro能识别一些简单的抽象模式 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
3、图像情感分析
模型都可以很好地描绘视图,并提供其中可能的情感 。GPT-4V观察是中立的,强调情绪是主观的,同时给出了更全面的分析 。Gemini Pro倾向于直接输出情感偏好 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
4、情感调节输出
情感调节输出是让多模态大模型描述以预定义情感为条件的视觉上下文 。
虽然Gemini Pro和GPT-4V能够正确地将相应的情感注入到生成的文本中 , 但它们都遇到了幻觉问题 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
5、数独游戏
如果仅以图像作为输入,尽管Gemini Pro尝试在输出矩阵内提供答案,但无法正确识别空白位置,而GPT-4V和SPHNIX则无法进行第一步 光学字符识别 。此外,给定相应的文本输入,Gemini Pro和GPT-4V都可以给出正确的答案 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
挑战性视觉任务
评估多模态大模型在超出标准视觉问答范围的各种具有挑战性的视觉任务中的性能 。
需要模型具有深厚的视觉感知和理解能力,评估这类表现将有助于深入了解模型在多领域应用的可行性 。
报告中分别测试了模型在图像视觉任务和时序视觉任务中的性能 。具体包括以下7个细分任务:
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
在此我们展示3个 。
1、指称表达式理解
Gemini Pro和GPT-4V都能够识别指称对象的大致位置,但它们很难提供精确的坐标和框大小 。而SPHNIX展示了提供引用对象的准确位置和大小的能力 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
2、目标跟踪
Gemini Pro和GPT-4V都能够描绘出要跟踪的目标的细节,但它们随后两帧图像中提供了错误的边界框 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
3、视觉故事生成
任务要求模型完全理解图像中的信息,并在生成的故事中对其进行逻辑组织 。
Gemini Pro和SPHNIX提供了连贯的故事,但却和没有十分贴近漫画剧情 。
GPT-4V为每个插图提供了精确的描述,却未能根据任务要求将它们编织成一个有凝聚力的故事 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
各种专家能力
专家能力衡量多模态大模型将其学到的知识和技能应用于不同专业领域的泛化能力 。除了上述的感知和认知任务外,多模态大模型在专门和独特场景下的鲁棒性通常具有更实际的参考意义 。也是7个细分任务:
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
在此我们同样展示3个:
1、缺陷检测
缺陷检测需要高精度和对细节的关注 。对于缺陷明显的图像,模型都可以提供正确答案,其中GPT-4V输出更详细的原因和描述 。
对于下图中的螺纹损坏的样例,Gemini Pro给出了过于笼统的答案,SPHNIX错误地描述了外观 , 而GPT-4V给出了标准答案 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
2、经济分析
报告展示了两个用于回答问题的股价走势图 。Gemini Pro擅长专家级金融知识,能够给出正确答案 。GPT-4V由于安全风险而没有给出明确答案 。SPHNIX由于缺乏相关训练数据无法理解此类问题 。
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

文章插图
【谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告】3、机器人运动规划
机器人规划要求机器人能够确定如何在给定情况下采取行动以实现特定目标 。
Gemini Pro和GPT-4V都可以提供有条理且详细的步骤,并且GPT-4V似乎比Gemini Pro给出了更合理的决定,例如电池的安装顺序,但SPHNIX无法完成手机的组装 , 说明其泛化能力有限 。


推荐阅读