首个AI程序员造假被抓，Devin再次“震撼”硅谷！扒皮视频文字详解附上( 三 ) _AI程序员

——这个数据看起来不高，但其实已经超过了此前所有AI大模型的成绩。
目前数一数二的GPT-4，在同个测试中的成绩只有1.74%，且必须配备一个人类，提示它要处理哪些文件。

文章插图
当时的Devin团队一副没在怕的样子。
虽然没开放公测，但陆陆续续给出了一些内测名额。
在互联网上搜索一番，发现上手体验过的人给的买家秀反馈是这样的：
热衷AI的沃顿商学院教授Ethan Molick试过后，认为其新颖的实时交互方式是最值得关注的。
他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站，随后透露，AI还无法在没有任何帮助的情况下，自主且无差错地完成这项工作。。

文章插图
但也有人直接表示，体验过后确实是有被震撼到。

文章插图
巧的是，截图中的这个首批内测体验者Bubna哥，是AI基础设施创业公司Modal Labs的CTO 。后来他和Devin还联手搞了个新闻。Devin用自家老板的账号，潜入Modal Labs的工作群，和Bubna哥一番交流过后，根据回复调整了代码方案，解决了一个技术问题。

文章插图
△图中的发言人背后其实是Devin当然，除了看上去哄哄的技术， Devin还镀了一层光环，那就是背后公司Cognition，虽然是个小初创，但在招人信息中明晃晃写着：
我们团队手里握着10块IOI金牌呢～

文章插图
技术演示和团队背景都吸睛Max，直接给Devin的传播力度添砖加瓦。
也正是因为对Devin的关注，代码生成领域在过去一段时间里进展是突飞猛进。
暂时无法在飞书文档外展示此内容
比如， GitHub三万Star项目MetaGPT就上新了“开源版Devin” ，名为数据解释器（Data Interpreter）：
阿里Qwen成员Binyan Hui等人开启了OpenDevin项目，一个月过去已经在GitHub揽星21.5k；

文章插图
普林斯顿那边动作更快，用GPT-4打造了开源SWE-agent，开箱即用，可修复GitHub存储库中真实bug 。
在25%的SWE-bench测试集上，它实现了与Devin演示视频中相似的准确度—— 解决了12.29%的问题。
还有各个大厂也开始入驻自己的AI程序员……
One More Thing
结果现在发生这件事儿，怎么说呢……
往好了想，真是救大命了，所有的程序员们都要松口气了，还好还好， AI暂时还无法端到端端走我的饭碗。
往坏了想，真是要了命了，这么一个备受关注的明星项目居然是个只能活在视频里的demo 。
难道世界真的是个巨大的草台班子？？？
参考链接：
[1]https://Twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ
[2]https://twitter.com/0interestrates/status/1779268441226256500
[3]https://news.ycombinator.com/item?id=40008109
[4]https://www.YouTube.com/watch?v=tNmgmwEtoWE