微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释( 三 )


起初,研究人员试图在种子改进程序提示中描述预算指令,但是这导致后续迭代中删除了此类指令,并试图进行「奖励盗取行为」 。
这一方法的缺点在于它将约束条件与语言模型要优化的代码分开,可能降低语言模型使用这些约束条件的可能性 。
最后,根据经验观察,作者发现用纯粹的实用程序英文描述来替换源代码会降低非实质性改进的频率 。

微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释

文章插图
Experiments & Results
1. 在固定的下游任务上的表现
作者对比GPT-4和GPT-3.5两个模型在固定下游任务上的表现,而任务的选择是学习带噪声的奇偶校验(LPN)LPN作为一个易于快速测试和难度较大的算法任务,其任务是在比特串被标记为它们上未知位的奇偶校验;在给定带有嘈杂标签的比特串训练集的情况下,目标是预测新比特串的真实标签 。无噪声的LPN可以通过高斯消元容易解决,但嘈杂的LPN是计算上难以处理的 。
使用了每个示例10位的可处理输入维度来定义下游效用u,随机抽样M=20个独立的LPN任务实例 , 并设置了短时间限制 。
微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释

文章插图
在自我改进T次后,STOP在带噪声奇偶校验的下游任务中的保留测试实例上的「元效用(Meta-utility)」 。
有意思的是 , 在像GPT-4这样的强大语言模型的支持下(左侧),STOP的平均下游性能单调提高 。相比之下 , 对于较弱的GPT-3.5语言模型(右侧),平均性能下降 。
2. 改进的系统的迁移能力
微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释

文章插图
作者做了一系列迁移实验,这些实验旨在测试在自我改进的过程中生成的改进者是否能够在不同的下游任务中表现良好 。
实验结果表明,这些改进者在不需要进一步优化的情况下,能够在新的下游任务上胜过初始版本的改进者 。这可能表明这些改进者具有一定的通用性 , 可以应用于不同的任务 。
3. 自优化系统在更小模型上的表现力
接下来探讨规模较小的语言模型 GPT-3.5-turbo 提高其搭建程序的能力 。
作者进行了25次独立运的实验并发现,GPT-3.5 有时能够提出和实施更好的搭建程序,但仅有12% 的 GPT-3.5 运行能够实现至少 3% 的改进 。
此外 , GPT-3.5 存在一些独特的失败情况,这些情况在 GPT-4 中没有观察到 。
首先,GPT03.5更有可能提出一种改进策略,不会损害下游任务的初始解决方案,但会损害改进者代码(例如,在每行中随机替换字符串,每行的替换概率较低,这对较短的解决方案的影响较?。?。
其次,如果提出的改进大多对性能有害,那么可能会选择次优的搭建程序,无意中返回原始解决方案 。
一般来说 , 改进提案背后的「思路」是合理和创新的(例如 , 遗传算法或局部搜索),但实现通常过于简单或不正确 。观察到,最初使用 GPT-3.5 的种子改进者具有比使用 GPT-4 更高的元效用(65% 对 61%) 。
结论
在这项工作中 , 研究人员提出了STOP的基础之上,展示了像GPT-4这样的大型语言模型能够自我改进 , 提高在下游代码任务中的性能 。
从而进一步表明自优化的语言模型并不需要优化自身的权重或底层架构,避免未来可能产生的不受人类控制的AI系统 。
参考资料:
https://arxiv.org/abs/2310.02304




推荐阅读