大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

Stack Overflow,已经被ChatGPT创飞了!
因为码农大量涌向ChatGPT、Github Copilot,Stack Overflow今天不得已宣布裁员100多人,几乎占员工人数的1/3 。

大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
所以,ChatGPT这类AI编码工具,真的要颠覆整个行业了?
不过最近,普林斯顿和芝大的一项研究发现,LLM想要替代码农 , 其实没那么容易 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
论文地址:https://arxiv.org/abs/2310.06770在2294个GitHub真实问题面前,GPT-4解决随机GitHub问题的通过率 , 竟然是0%!
而即使是最佳模型Claude 2,也只能解决其中的1.96%而已 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
码农会因为ChatGPT而失业吗?答案是——目前绝对不会 。
要么适应,要么灭亡
作为全世界每个开发者最爱的代码辅助网站 , Stack Overflow在此前的形势还一片大好,在去年掀起了一场招聘狂潮,整个公司的员工人数都翻了一番,达到了540人 。
然而,自从去年11月OpenAI发布了ChatGPT后,一切都变了 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
AI聊天机器人提供的帮助 , 比5年前的论坛帖子更加具体 。通过LLM,开发者可以即时更正确切的代码、优化建议,以及每行代码正在执行操作的说明 。
虽说LLM提供的答案也并不是100%可靠,但代码具有独特的能力 , 只需在IDE集成开发环境中进行测试,即可立即验证代码了 , 这一切都使写代码成为了ChatGPT的理想用例 。
因此,Stack Overflow的流量大大减少,ChatGPT、GPT-4驱动的Github Copilot等AI编程工具,都成为了码农的新去处 。
今天 , CEO Prashanth Chandrasekar宣布,Stack Overflow裁员一百多人,占员工总数的28% 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
CEO对于裁员的解释是 , 宏观经济压力下,Stack Overflow在努力走上盈利之路,不断推出产品创新 。
过河拆桥?
ChatGPT给Stack Overflow造成冲击这件事,最大讽刺之处在于 , 大语言模型的强大能力,很大程度上就是来自像Stack Overflow这样的抓取网站 。
大语言模型吸空了这些数据,却不回馈任何东西,如果所有数据源都被迫赶出了这一业务,那时会发生什么?
现在,不少科技公司面前已经存在着迫在眉睫的问题:如果程序员减少 , 人造数据就会减少 。
如果没有最新的数据,怎么训练新的AI模型呢?
想用我们的数据?拿钱来
Stack Overflow当然不能坐以待毙 , 它选择了两种方式自救——
一是开发自己的AI编码工具OverflowAI , 二是直接和OpenAI这样的科技公司寻求合作,因为这些公司会使用Stack Overflow的数据构建AI模型 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
据悉 , OpenAI正在为ChatGPT开发网络爬虫控制,这样Stack Overflow这样的网站的数据就不会被爬取 。
CEO表示,Stack Overflow已经表明了立?。核?胗梦颐堑氖?堇囱盗稬LM,谁就来付费 。
CEO认为,像Stack Overflow这样的网站对于大语言模型的发展至关重要,为了进步,它们需要在新知识上进行训练 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
Stack Overflow首席执行官Prashanth ChandrasekarLLM想取代码农,还早着呢
所以,大语言模型真能取代码农吗?
普林斯顿和芝大团队发现 , 没那么容易!
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
在最新论文中,研究人员提出了一种全新框架SWE-bench,以评估大模型在解决2294个GitHub真实问题中的能力 。
结果发现,像GPT-4、Claude 2这样领先的大模型,解决实际问题的能力,都不过5% 。
再具体点,GPT-4可以解决随机GitHub问题的通过率竟是0%,而最佳模型Claude 2,也只能解决其中的1.96% 。
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图

大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0

文章插图
更值得一提的是,在使用BM-25检索每个问题的相关代码文件时,Claude 2编写的补丁中只有23%是有效的(可以用于repo),只有~1%真正解决了问题 。
此外,不同的模型,在解决12个流行的Python/ target=_blank class=infotextkey>Python库问题的性能,也有所差异 。


推荐阅读