ChatGPT/InstructGPT详解( 五 ) _ChatGPT

模型对简单概念的过分解读：这可能是因为labeler在进行生成内容的比较时，倾向于给给长的输出内容更高的奖励。

对有害的指示可能会输出有害的答复：例如InstructGPT/ChatGPT也会对用户提出的“AI毁灭人类计划书”给出行动方案（图5）。这个是因为InstructGPT/ChatGPT假设labeler编写的指示是合理且价值观正确的，并没有对用户给出的指示做更详细的判断，从而会导致模型会对任意输入都给出答复。虽然后面的奖励模型可能会给这类输出较低的奖励值，但模型在生成文本时，不仅要考虑模型的价值观，也要考虑生成内容和指示的匹配度，有时候生成一些价值观有问题的输出也是可能的。

文章插图
图5：ChatGPT编写的毁灭人类计划书。
3.3 未来工作我们已经分析了InstrcutGPT/ChatGPT的技术方案和它的问题，那么我们也可以看出InstrcutGPT/ChatGPT的优化角度有哪些了。

人工标注的降本增效：InstrcutGPT/ChatGPT雇佣了40人的标注团队，但从模型的表现效果来看，这40人的团队是不够的。如何让人类能够提供更有效的反馈方式，将人类表现和模型表现有机和巧妙的结合起来是非常重要的。
模型对指示的泛化/纠错等能力：指示作为模型产生输出的唯一线索，模型对他的依赖是非常严重的，如何提升模型对指示的泛化能力以及对错误指示示的纠错能力是提升模型体验的一个非常重要的工作。这不仅可以让模型能够拥有更广泛的应用场景，还可以让模型变得更“智能” 。
避免通用任务性能下降：这里可能需要设计一个更合理的人类反馈的使用方式，或是更前沿的模型结构。因为我们讨论了InstrcutGPT/ChatGPT的很多问题可以通过提供更多labeler标注的数据来解决，但这会导致通用NLP任务更严重的性能下降，所以需要方案来让生成结果的3H和通用NLP任务的性能达到平衡。

3.4 InstrcutGPT/ChatGPT的热点话题解答

ChatGPT的出现会不会导致底层程序员失业？从ChatGPT的原理和网上漏出的生成内容来看，ChatGPT生成的代码很多可以正确运行。但程序员的工作不止是写代码，更重要的是找到问题的解决方案。所以ChatGPT并不会取代程序员，尤其是高阶程序员。相反它会向现在很多的代码生成工具一样，成为程序员写代码非常有用的工具。
Stack Overflow 宣布临时规则：禁止 ChatGPT 。ChatGPT本质上还是一个文本生成模型，对比生成代码，它更擅长生成以假乱真的文本。而且文本生成模型生成的代码或者解决方案并不能保证是可运行而且是可以解决问题的，但它以假乱真的文本又会迷惑很多查询这个问题的人。Stack Overflow为了维持论坛的质量，封禁ChatGPT也是清理之中。
聊天机器人 ChatGPT 在诱导下写出「毁灭人类计划书」，并给出代码，AI 发展有哪些问题需关注？ChatGPT的「毁灭人类计划书」是它在不可遇见的指示下根据海量数据强行拟合出来的生成内容。虽然这些内容看起来很真实，表达也很流畅，这说明的只是ChatGPT具有非常强的生成效果，并不表示ChatGPT具备毁灭人类的思想。因为他仅仅是一个文本生成模型，并不是一个决策模型。

4. 总结就像很多人们算法刚诞生时一样，ChatGPT凭借有用性，真实性，无害性的效果，引起了业内广泛的关注和人类对AI的思考。但是当我们看完它的算法原理之后，发现它并没有业内宣传的那么恐怖。反而我们可以从它的技术方案中学到很多有价值的东西。InstrcutGPT/ChatGPT在AI界最重要的贡献是将强化学习和预训练模型巧妙的结合起来。而且通过人工反馈提升了模型的有用性，真实性和无害性。ChatGPT也进一步提升大模型的成本，之前还只是比拼数据量和模型规模，现在甚至也引入了雇佣的外包这一支出，让个体工作者更加望而却步。
参考