半年多过去了,ChatGPT的排名快“垫底”了?

出品|三言Pro
今天,笔者无意中刷到一张图片 。

半年多过去了,ChatGPT的排名快“垫底”了?

文章插图
据该图片显示,AI target=_blank class=infotextkey>OpenAI的GPT-4在11个大模型中(第一名序号为0),已经排到了最后 。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样 。
这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念 。
这才半年多,GPT就已经“垫底”了?
于是,笔者想看看GPT排名到底咋样了 。
测试时间不同
测试团队不同
GPT-4排第十一
从前文中图片上显示的信息来看,这个排名是出自C-Eval榜单 。
C-Eval榜单,全称C-Eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件 。
据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域 。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别 。
于是笔者查看了最新的C-Eval榜单 。
C-Eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4排最后 。
半年多过去了,ChatGPT的排名快“垫底”了?

文章插图
据C-Eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好 。
C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好 。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置 。
C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得 。
此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别 。
GPT-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的Galaxy提交时间为8月23日;排第三的YaYi提交时间为9月4日 。
并且,排名前16的这些大模型,只有GPT-4的名字加了“*”,是由C-Eval团队测试的 。
于是笔者又查看了完整的C-Eval榜单 。
最新的C-Eval榜单一共收录了66个大模型的排名 。
半年多过去了,ChatGPT的排名快“垫底”了?

文章插图
其中,名字带“*”,也就是由C-Eval团队测试的,只有11个,且提交测试的时间均为5月15日 。
【半年多过去了,ChatGPT的排名快“垫底”了?】这些由C-Eval团队测试的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清华智谱AI的ChatGLM-6B排在第六十,复旦的MOSS排在了第六十四 。
虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱 。
这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?
大模型开发者怎么说?
多家表示在中文等能力上超过ChatGPT
最近,大模型的圈子相当热闹 。
又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务 。又是其他公司相继发布自家大模型产品 。
那这些大模型的开发者又都是怎么介绍自家产品的呢?
7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏表示,复旦对话式大型语言模型MOSS在今年2月发布后,还在连续不停地迭代,“最新的MOSS已经能够在中文能力上超过ChatGPT 。”
7月底,网易有道上线翻译大模型,网易有道CEO周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越ChatGPT的翻译能力,也超过了谷歌翻译的水准 。
8月下旬,在2023年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,“讯飞星火大模型的代码生成和补齐能力已经超过了ChatGPT,其他各项能力正在快速追赶 。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力 。”
商汤近期的新闻稿中称,今年8月,新模型internlm-123b完成训练,参数量提升至1230亿 。在全球51个知名评测集共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型 。


推荐阅读