微软AI程序员登场，10倍AI工程师真来了？996自主生成代码，性能超GPT-4 30%( 三 ) _AI程序员

检索：在这一类别中，检索工具包括grep、find和ls等基本CLI工具，以及更复杂的基于嵌入的技术。
这些技术能让代理查找类似的代码片段，从而提高他们从代码库中检索相关信息的能力。
例如， retrieve <content> 命令允许代理执行与所提供内容类似的基于嵌入的片段检索。
-构建与执行：这类命令允许代理使用简单直观的命令毫不费力地编译、构建和执行代码库。底层构建命令的复杂性已被抽象化，从而简化了评估环境基础架构中的流程。这类命令的示例包括：构建、运行 <文件> 。
-测试与验证：这些命令使代理能够通过执行单个测试用例、特定测试文件或整个测试套件来测试代码库。代理可以执行这些操作，而无需依赖特定测试框架的底层命令。
这类工具还包括校验工具，如筛选器和错误查找工具。这类命令的例子包括：检查语法正确性的 syntax <file> 和运行整个测试套件的 test 。
-Git：用户可以为Git操作配置细粒度权限。包括提交、推送和合并等操作。例如，可以授予代理只执行本地提交的权限，或者在必要时将更改推送到源代码库。
-通信：代理可以调用一系列旨在促进与其他代理和/或用户交流的命令。值得注意的是，talk命令可以发送自然语言信息（不解释为版本库操作命令），ask命令用于请求用户反?。?而stop命令可以中断进程，表示目标已实现或代理无法继续。
因此，AutoDev中的工具库为人工智能代理提供了一套多功能且易于使用的工具，使其能够与代码库进行交互，并在协作开发环境中进行有效交流。
评估环境（Eval Environment）
评估环境在Docker容器中运行，可以安全地执行文件编辑、检索、构建、执行和测试命令。
它抽象了底层命令的复杂性，为代理提供了一个简化的界面。评估环境会将标准输出/错误返回给输出组织器模块。
整合
用户通过指定目标和相关设置启动对话。
对话管理器初始化一个对话对象，整合来自人工智能代理和评估环境的信息。随后，对话管理器将对话分派给负责协调人工智能代理行动的代理调度器。
作为人工智能代理，语言模型（大型或小型 LM）通过文本互动提出指令建议。
命令界面包含多种功能，包括文件编辑、检索、构建和执行、测试以及 Git 操作。对话管理器会对这些建议的命令进行解析，然后将其引导至评估环境，以便在代码库中执行。
这些命令在评估环境的安全范围内执行，并封装在 Docker 容器中。
执行后，产生的操作将无缝集成到对话历史中，为后续迭代做出贡献。
这种迭代过程一直持续到代理认为任务完成、用户干预发生或达到最大迭代限制为止。
AutoDev 的设计确保了系统、安全地协调人工智能代理，以自主和用户控制的方式完成复杂的软件工程任务。
实证评估设计
在研究人员的实证评估中，评估了AutoDev在软件工程任务中的能力和有效性，研究它是否能够提升人工智能模型的性能，而不仅仅是简单的推理。
此外，研究人员还评估了AutoDev在步骤数、推理调用和token方面的成本。
主要是确定了三个实验研究问题：
-

微软AI程序员登场，10倍AI工程师真来了？996自主生成代码，性能超GPT-4 30%( 三 )

推荐阅读

决战！平安京|决战平安京，返校季大揭秘，新手最全攻略！！！

十大蓝牙小音箱排行榜，酷狗蘑蘑小音节奏闪灯一键DJ“城会玩”

风筝|《追风筝的人》：每个人终其一生，都在追逐属于自己的命运

电视剧|同样是扮演“乞丐”，孙俪流鼻涕，周星驰抢狗盆，而他本色出演！

赵露思|《骄阳似我》又传出新阵容，李现将搭档赵露思，你认为符合吗？

顶级奢侈品集团Kering的代表品牌及产地和代表作品或风格有哪些

易简财经|27万股民今夜无眠，黄了！两家券商千亿级合并告吹

华为|华为迎来大消息！俄外长刚刚表态，俄罗斯准备与中国以及华为开展5G技术合作

『包不同』疫情之下，京东有惊喜！

#泌尿外科李成方#长期疲劳会影响身体的哪些部分？

亚美尼亚人|二十世纪初，亚美尼亚人遭到了大屠杀，100万人死于土耳其人之手

『雷帝网』CFO称汽车业回报周期长亏损是阶段性的，恒大健康亏近50亿

拜登|美国下任总统已定？拜登犯下“致命”错误，这次奥巴马也“保不住”他！

精子能有杀菌消炎作用吗

怎么样让别人愿意了解自己

时尚旅游守在富豪门前32年，谁能让他动就奖励一万，印度最“尽职”保安

口腔科张兴医生：种植牙要如何护理？牙科医生教你4招，轻松延长使用寿命！很实用

权志龙否认吸毒传闻，曾被指在机场行为异常，疑似毒瘾发作，12年前曾承认吸毒

李云迪和朗朗谁厉害？

高三最后一个学期是啥心态、