文章插图
就算和Codex 2.5B相比,LLaMA的性能也不是个儿 。(通过率10% vs. 22%)
文章插图
最后,他测试了Replit的3B大小的模型 。
他表示,表现还不错,但和推特上宣传的数据相比差点意思(通过率16% vs. 22%)
Plappert认为,这可能是因为他在测试这个模型时所用的量化方式让通过率掉了几个百分比 。
文章插图
在测评的最后,Plappert提到了一个很有意思的点 。
某位用户在推特上发现,当使用Azure平台的Completion API(补全API)(而不是Chat API)时,GPT-3.5-turbo的性能表现更好 。
Plappert认为这种现象具有一定合理性,因为通过Chat API输入prompt可能会相当复杂 。
文章插图
【OpenAI霸榜前二!大模型代码生成排行榜出炉,70亿LLaMA拉跨,被2.5亿Codex吊打】参考资料:
https://Twitter.com/mplappert/status/1663892732652273664
推荐阅读
- 苹果封神头显Vision Pro竟暗藏「脑机接口」!苹果前员工疯狂揭秘读心操控
- 和田玉籽料|明以前 和田玉籽料受沁 龙纹 玉玦
- 贾静雯|56岁港星陈法蓉自曝已立遗嘱!至今未婚无儿女,自曝之前是恋爱脑
- 车厘子需要放冰箱吗 车厘子放冰箱前要洗吗
- 最好看的重生言情小说排行榜前十名
- 100q点等于多少q币
- 我在佛前为你求千年是什么歌名
- 名著电影排行榜前十名
- 经典名著电影排行榜前十名
- 地下城与勇士|DNF:7年前最可怕的职业,只要满级就能1拖19,策划赶紧连夜削弱