前段时间 , 谷歌的一份泄密文件引发了广泛关注 。在这份文件中 , 一位谷歌内部的研究人员表达了一个重要观点:谷歌没有护城河 , OpenAI 也没有 。
这位研究人员表示 , 虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶 , 但真正的赢家未必会从这两家中产生 , 因为一个第三方力量正在悄悄崛起 。
这个力量名叫「开源」 。围绕 Meta 的 LLaMA 等开源模型 , 整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型 , 而且开源模型的迭代速度更快 , 可定制性更强 , 更有私密性……「当免费的、不受限制的替代品质量相当时 , 人们不会为受限制的模型付费 。」作者写道 。
这些观点在社交媒体上引起了很大争议 , 其中一个比较大的争议是:那些开源模型是否真的能达到和 OpenAI ChatGPT 或谷歌 Bard 等商业闭源大模型相似的水平?现阶段两个阵营还有多大差距?
为了探索这个问题 , 一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对部分模型(Vicuna-13B、MPT-7b-Chat VS. ChatGPT 3.5)进行了测试 。
其中 , Vicuna-13B 是加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们提出的一个开源模型 , 这个模型基于 LLaMA 13B 参数量的版本构建而成 , 在一项由 GPT-4 打分的测试中表现十分亮眼(参见《300 美元复刻 ChatGPT 九成功力 , GPT-4 亲自监考 , 130 亿参数开源模型「小羊驼」来了》) 。
MPT-7B 是 MosaicML 发布的大型语言模型 , 遵循 meta 的 LLaMA 模型的训练方案 。MosaicML 表示 , MPT-7B 与 meta 的 70 亿参数 LLaMA 模型的性能相当 。
和它们对比的 , 自然是大语言模型标杆 ChatGPT 。
文章插图
Marco Tulio Ribeiro 是一位研究员 , 目前在微软研究院的自适应系统和交互组工作 。他还是华盛顿大学的联合助理教授 。这项工作由他和微软的另一位研究员 Scott Lundberg 共同完成 。在测试中 , 他们使用了微软的 guidance 库来帮助设计 prompt 。
热身:解方程第一项任务是解简单的多项式方程 , 这些问题都有标准答案 , 比较容易评估对错 。
对于指定的三个模型 , 测试者给出的题目是求二元一次方程「x^2+3x=0」的解 。他们使用了以下 prompt:
文章插图
三个模型表现如下 。
ChatGPT:
equation = 'x^2 + 3.0x = 0'roots = [0, -3]answer_gpt = find_roots (llm=chatgpt, equatinotallow=equation)
文章插图
Vicuna:
answer_vicuna = find_roots (llm=vicuna, equatinotallow=equation)
文章插图
MPT:
answer_mpt = find_roots (llm=mpt, equatinotallow=equation)
文章插图
显然 , 正确答案应该是 [-3, 0] , 只有 ChatGPT 答对了(Vicuna 甚至没有按照指定的格式作答) 。
在这篇文章附带的 notebook 中 , 测试者编写了一个函数 , 用于生成具有整数根的随机二次方程 , 根的范围在 - 20 到 20 之间 , 并且对每个模型运行了 20 次 prompt 。三个模型的准确率结果如下:
╔═══════════╦══════════╦║Model║ Accuracy ║╠═══════════╬══════════╬║ ChatGPT║80%║║ Vicuna║0%║ ║ MPT║0%║╚═══════════╩══════════╩
在二元一次方程的测试中 , 虽然 GPT 做错了一些题 , 但 Vicuna 和 MPT 一道都没做对 , 经常在中间步骤中犯错(MPT 甚至经常不写中间步骤) 。下面是一个 ChatGPT 错误的例子:文章插图
ChatGPT 在最后一步计算错误 , (13 +- 25)/2 应该得到 [19 , -6] 而不是 [19.5 , -6.5] 。
由于 Vicuna 和 MPT 实在不会解二元一次方程 , 测试者就找了一些更简单的题让他们做 , 比如 x-10=0 。对于这些简单的方程 , 他们得到了以下统计结果:
推荐阅读
- 一文读懂什么是AIGC、ChatGPT、大模型
- 考研|军官职业发展系列谈之三——“考研”
- 大模型赛道正“热”:卷场景、卷芯片、卷人才
- AI大模型的未来市场在中国
- “AI的商业化路线已经清晰” 2023京东“赶考”千亿级产业大模型
- 鱼龙混杂大模型:谁在蹭热点?谁有真实力?
- MathGPT来了!专攻数学大模型,解题讲题两手抓
- 大模型“群雄逐鹿”,科大讯飞何以脱颖而出?
- 除了推出大模型,AI发展还应做什么
- 欧莱雅护肤系列分别适用的年龄段;欧莱雅护肤品哪种好用?