OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打( 二 )


OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

文章插图
就算和Codex 2.5B相比,LLaMA的性能也不是个儿 。(通过率10% vs. 22%)
OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

文章插图
最后,他测试了Replit的3B大小的模型 。
他表示,表现还不错,但和推特上宣传的数据相比差点意思(通过率16% vs. 22%)
Plappert认为,这可能是因为他在测试这个模型时所用的量化方式让通过率掉了几个百分比 。
OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

文章插图
在测评的最后,Plappert提到了一个很有意思的点 。
某位用户在推特上发现,当使用Azure平台的Completion API(补全API)(而不是Chat API)时,GPT-3.5-turbo的性能表现更好 。
Plappert认为这种现象具有一定合理性,因为通过Chat API输入prompt可能会相当复杂 。
OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打

文章插图
【OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打】参考资料:
https://Twitter.com/mplappert/status/1663892732652273664




推荐阅读