文章插图
论文核心框架
在这项工作中,研究人员提出了Self-Taught Optimizer(STOP) , 这是一种应用语言模型来改进任意解决方案的代码递归地应用 。
研究人员的方法从初始种子「优化器」脚手架程序开始 , 这个程序使用语言模型来改进下游任务的解决方案 。
随着系统的迭代,模型会完善这个优化程序 。研究人员使用一组下游算法任务来量化自优化框架的性能 。
研究人员的结果表明,当模型在增加迭代次数时应用其自我改进策略时,效果会明显改善 。
STOP展示了语言模型如何充当自己的元优化器(Meta Optimizer) 。研究人员还研究了模型提出的自我改进策略的种类(见下图 1)、所提出的策略在下游任务中的可转移性,并探讨了模型对不安全的自我改进策略的敏感性 。
上图展示了STOP在使用GPT-4时提出的许多功能性且有趣的搭建性程序(scaffolds),因为GPT-4是使用截至 2021 年的数据进行训练,远远早于大多数搭建性程序的提出 。
所以说明这个系统能够原创性地生成有用优化策略来进行自我优化 。
这项工作的主要贡献是:
1.提出了一种「元优化」(Meta-Optimizer)的方法 , 生成了搭建性程序来递归地改进自身输出 。
2.证明了使用现代语言模型(特别是 GPT-4)的系统可以成功地递归地改进自身 。
3. 研究模型提出和实施的自我改进技术,包括模型规避沙箱等安全措施的方式和可能性 。
STOP SELF-TAUGHT OPTIMIZER(STOP)系统
文章插图
图3 展示了系统自我迭代优化的pipeline
下面这个给出了Self-Taught Optimizer(STOP)的算法图 。其中最关键的问题在于I系统本身的设计就是一个优化分体 , 可以通过应用递归算法进行改进 。
文章插图
首先,STOP算法首先初始化种子I0,接下来 , 定义第t次迭代改进之后的输出公式:
1. 直觉
STOP可以根据下游任务选择u来在迭代过程中更好地选择迭代版本 。通常情况下,直觉认为,能够胜任下游任务的解决方的迭代版本更可能成为更优秀的搭建性程序 , 从而更善于改进自我 。
同时,研究人员认为选择单论改进的方案会带来更好的多轮改进 。
在最大化公式中,作者讨论了「元效用(Meta-utility)」,即涵盖了自我优化与下游优化 , 但是受限于评估成本,在实践中,作者对语言模型施加了预算限制(例如,限制运行时间、可调用函数的次数),并由人类或模型生成初始解决方案 。
预算成本可由以下公式表达:
其中 , budget表示每一个预算项,对应每次迭代的系统可使用调用函数的次数 。
2. 设置初始系统
文章插图
在上图2中,选择最初种子的时候,只需要提供prompt:
「You are an expert computer science researcher and programmer, especially skilled at optimizing algorithms. Improve the following solution.」
系统模型就会生成初始的解决方案,然后输入:
「You must return an improved solution. Be as creative as you can under the constraints. Your primary improvement must be novel and non-trivial. First, propose an idea, then implement it.」
根据调用函数返回最佳的解决方案 。作者之所以选择了这种简单的形式,是因为便于为通用的下游任务提供非对称的改进 。
除此之外,在迭代的过程中,还需要有一些注意的地方:
(1)鼓励语言模型尽可能地发挥「创造性」;
(2)尽量减少初始提示prompt的复杂性,因为自我迭代会因promp内部的代码字符串引用而带来额外的复杂性;
(3)尽量减少prompt数量,从而降低调用语言模型的成本 。研究人员还考虑了 研究人员还考虑了该种子提示符的其他变体,但启发式地发现该版本最大限度地提高了 GPT-4 语言模型提出的改进 。
作者还意外的发现使用prompt的其他变体可以最大限度地提高GPT-4语言模型能力 。
3. 描述效用性(Describing the utility)
为了有效地向语言模型传达实用程序的细节,作者提供两种形式的实用程序,一种是可调用的函数 , 另一种是包含实用程序源代码基本要素的实用程序描述字符串 。
采取这种方法的原因在于,通过描述,研究人员可以清晰地传达实用程序的预算限制,例如运行时间或函数调用次数,以语言模型 。
推荐阅读
- 碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星
- 基于牛顿求根法,新算法实现并行训练和评估RNN,带来超10倍增速
- 多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页
- 微软高估了Bing,低估了Open AI
- 微软发布 Visual Studio for Mac 退役公告
- 微软年度3A大作翻车!《星空》IGN评分仅有7分
- Downfall漏洞补丁影响英特尔CPU性能,微软提供禁用补丁的方法
- 报告称微软 Skype 移动应用存在严重漏洞,可轻易泄露用户 IP 地址
- Python之父加入3年,微软终于对Python下手:直接放进Excel!
- 微软 Edge 浏览器将推出两大新功能:设备端加密和自动验证验证码