大模型无法替代码农！普林斯顿芝大惊人发现：GPT-4解决GitHub编程问题成功率为0 _大模型

Stack Overflow，已经被ChatGPT创飞了！
因为码农大量涌向ChatGPT、Github Copilot，Stack Overflow今天不得已宣布裁员100多人，几乎占员工人数的1/3 。

文章插图
所以，ChatGPT这类AI编码工具，真的要颠覆整个行业了？
不过最近，普林斯顿和芝大的一项研究发现，LLM想要替代码农，其实没那么容易。

文章插图
论文地址：https://arxiv.org/abs/2310.06770在2294个GitHub真实问题面前，GPT-4解决随机GitHub问题的通过率，竟然是0%！
而即使是最佳模型Claude 2，也只能解决其中的1.96%而已。

文章插图
码农会因为ChatGPT而失业吗？答案是——目前绝对不会。
要么适应，要么灭亡
作为全世界每个开发者最爱的代码辅助网站， Stack Overflow在此前的形势还一片大好，在去年掀起了一场招聘狂潮，整个公司的员工人数都翻了一番，达到了540人。
然而，自从去年11月OpenAI发布了ChatGPT后，一切都变了。

文章插图
AI聊天机器人提供的帮助，比5年前的论坛帖子更加具体。通过LLM，开发者可以即时更正确切的代码、优化建议，以及每行代码正在执行操作的说明。
虽说LLM提供的答案也并不是100%可靠，但代码具有独特的能力，只需在IDE集成开发环境中进行测试，即可立即验证代码了，这一切都使写代码成为了ChatGPT的理想用例。
因此，Stack Overflow的流量大大减少，ChatGPT、GPT-4驱动的Github Copilot等AI编程工具，都成为了码农的新去处。
今天， CEO Prashanth Chandrasekar宣布，Stack Overflow裁员一百多人，占员工总数的28% 。

文章插图
CEO对于裁员的解释是，宏观经济压力下，Stack Overflow在努力走上盈利之路，不断推出产品创新。
过河拆桥？
ChatGPT给Stack Overflow造成冲击这件事，最大讽刺之处在于，大语言模型的强大能力，很大程度上就是来自像Stack Overflow这样的抓取网站。
大语言模型吸空了这些数据，却不回馈任何东西，如果所有数据源都被迫赶出了这一业务，那时会发生什么？
现在，不少科技公司面前已经存在着迫在眉睫的问题：如果程序员减少，人造数据就会减少。
如果没有最新的数据，怎么训练新的AI模型呢？
想用我们的数据？拿钱来
Stack Overflow当然不能坐以待毙，它选择了两种方式自救——
一是开发自己的AI编码工具OverflowAI ，二是直接和OpenAI这样的科技公司寻求合作，因为这些公司会使用Stack Overflow的数据构建AI模型。

文章插图
据悉， OpenAI正在为ChatGPT开发网络爬虫控制，这样Stack Overflow这样的网站的数据就不会被爬取。
CEO表示，Stack Overflow已经表明了立?。核?胗梦颐堑氖?堇囱盗稬LM，谁就来付费。
CEO认为，像Stack Overflow这样的网站对于大语言模型的发展至关重要，为了进步，它们需要在新知识上进行训练。

文章插图
Stack Overflow首席执行官Prashanth ChandrasekarLLM想取代码农，还早着呢
所以，大语言模型真能取代码农吗？
普林斯顿和芝大团队发现，没那么容易！

文章插图
在最新论文中，研究人员提出了一种全新框架SWE-bench，以评估大模型在解决2294个GitHub真实问题中的能力。
结果发现，像GPT-4、Claude 2这样领先的大模型，解决实际问题的能力，都不过5% 。
再具体点，GPT-4可以解决随机GitHub问题的通过率竟是0%，而最佳模型Claude 2，也只能解决其中的1.96% 。

文章插图

文章插图
更值得一提的是，在使用BM-25检索每个问题的相关代码文件时，Claude 2编写的补丁中只有23%是有效的（可以用于repo），只有~1%真正解决了问题。
此外，不同的模型，在解决12个流行的Python/ target=_blank class=infotextkey>Python库问题的性能，也有所差异。