——这个数据看起来不高,但其实已经超过了此前所有AI大模型的成绩 。
目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件 。
文章插图
当时的Devin团队一副没在怕的样子 。
虽然没开放公测,但陆陆续续给出了一些内测名额 。
在互联网上搜索一番,发现上手体验过的人给的买家秀反馈是这样的:
热衷AI的沃顿商学院教授Ethan Molick试过后,认为其新颖的实时交互方式是最值得关注的 。
他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站 , 随后透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作 。 。
文章插图
但也有人直接表示,体验过后确实是有被震撼到 。
文章插图
巧的是 , 截图中的这个首批内测体验者Bubna哥,是AI基础设施创业公司Modal Labs的CTO 。后来他和Devin还联手搞了个新闻 。Devin用自家老板的账号,潜入Modal Labs的工作群,和Bubna哥一番交流过后,根据回复调整了代码方案,解决了一个技术问题 。
文章插图
△图中的发言人背后其实是Devin当然,除了看上去哄哄的技术 , Devin还镀了一层光环,那就是背后公司Cognition,虽然是个小初创 , 但在招人信息中明晃晃写着:
我们团队手里握着10块IOI金牌呢~
文章插图
技术演示和团队背景都吸睛Max,直接给Devin的传播力度添砖加瓦 。
也正是因为对Devin的关注,代码生成领域在过去一段时间里进展是突飞猛进 。
暂时无法在飞书文档外展示此内容
比如 , GitHub三万Star项目MetaGPT就上新了“开源版Devin” , 名为数据解释器(Data Interpreter):
阿里Qwen成员Binyan Hui等人开启了OpenDevin项目,一个月过去已经在GitHub揽星21.5k;
文章插图
普林斯顿那边动作更快,用GPT-4打造了开源SWE-agent,开箱即用,可修复GitHub存储库中真实bug 。
在25%的SWE-bench测试集上,它实现了与Devin演示视频中相似的准确度—— 解决了12.29%的问题 。
还有各个大厂也开始入驻自己的AI程序员……
One More Thing
结果现在发生这件事儿 , 怎么说呢……
往好了想,真是救大命了 , 所有的程序员们都要松口气了,还好还好 , AI暂时还无法端到端端走我的饭碗 。
往坏了想,真是要了命了 , 这么一个备受关注的明星项目居然是个只能活在视频里的demo 。
难道世界真的是个巨大的草台班子???
参考链接:
[1]https://Twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ
[2]https://twitter.com/0interestrates/status/1779268441226256500
[3]https://news.ycombinator.com/item?id=40008109
[4]https://www.YouTube.com/watch?v=tNmgmwEtoWE
推荐阅读
- 网络空间不容造假引流的剧本横飞
- 雷军:10年编程路,给程序员的几点建议
- 公然造假?北京“半马冠军”疑遭保送:3名外籍选手演技拙劣!
- 全网首个粉丝破亿的女主播即将出现
- AI程序员上岗 垂类大模型应用迎来井喷期
- 首个AI程序员上岗,码农们暂且不必过度焦虑
- 明星造假太猖狂,学历、身材、脸蛋、年龄,没一样是真的!
- 王子文成都录制综艺,个子矮小身材五五分,被疑身高造假不足150
- 又反转!凯特王妃露面视频被质疑造假,服装发型与七年前一模一样
- 塔吊证二维码可以扫出来是真的吗 塔吊证上的二维码能造假吗