OpenAI 创始人最新演讲：ChatGPT 炸裂新功能，分享怎样教 AI 使用工具 _ChatGPT

以下文章来源于Founder Park ，作者Founder Park
AI target=_blank class=infotextkey>OpenAI 的联合创始人，三位核心成员之一的 Greg Brockman 日前在 TED2023 上发表演讲，过程中演示了足以取代上周爆火的 AutoGPT 的新功能，还有 OpenAI 在人机协作方面的思考和进展。
以下是演讲内容，经 Founder Park 编辑整理。
七年前，我们创办了 OpenAI 。因为人工智能领域正在发生一些非常有趣的事，我们想引导它向积极的方向发展。
从那天到现在，整个领域取得了难以置信的进展，令人惊叹。
人们为之兴奋，也为之担忧。这也是我们所感受到的。
最重要的是，我们似乎正在进入一个历史性时期，全世界都在定义一个对人类社会的未来至关重要的技术。
我相信我们可以善加引用这项技术。
今天我想向你们展示的，就是这项技术最新的进展，以及一些我们一直秉承的基本设计原则。
01
教会 AI 使用工具
首先，我想展示，如何为 AI 开发工具，而不是为人类开发工具。
Greg 展示了如何用 ChatGPT 策划一顿晚饭，用 Dall-E 绘制出来，用第三方插件列出制作这顿晚饭的菜单，并发布到推特上。
所有这些动作，都由 ChatGPT 自动完成，但用户又可以在每一个关键动作中介入操作。
我们继续。前面展示的这个案例，关键不仅仅在于如何创建工具，更重要的是如何教会 AI 使用它们。
（它需要理解）当我们在问这些相对复杂的问题时，我们究竟想让它做些什么？
为此，我们使用了一种古老的想法。
如果你回看阿兰·图灵 1950 年关于图灵测试的论文，他说，你永远不会为这个问题编写答案。，相反，你可以学习。你可以设计一个机器，就像一个人类孩子一样，然后通过反馈来教它。
让一个人类老师在它尝试和做出好或坏的事情时提供奖励和惩罚。这正是我们如何训练 ChatGPT 的方法。
这是一个两步流程。
第一步，我们通过无监督学习过程生成了图灵所谓的儿童机器。
我们只是向它展示整个世界、整个互联网，并说：「预测你从未见过的文本中的下一个内容。」
这个过程赋予了它各种厉害的技能。
比如这个数学问题，问它下一个词是什么？那个绿色的「9」，就是数学问题的答案。

文章插图
但是我们还需要做第二步，也就是教 AI 如何使用这些技能。
为此，我们提供反馈。
我们让 AI 尝试多种方法，给我们多个建议，然后人类对它们进行评分，说「这个比那个好」。这不仅强化了 AI 所说的具体内容，而且非常重要的是，强化了 AI 用于产生答案的整个过程。这使它能够概括。它可以推断你的意图并将其应用于它以前没有看到过的情景，那些没有收到反馈的情况。
【OpenAI 创始人最新演讲：ChatGPT 炸裂新功能，分享怎样教 AI 使用工具】现在，有时我们需要教 AI 的东西并不是你所期望的。
例如，当我们首次向可汗学院展示 GPT-4 时，他们说：「哇，这太棒了，我们将能够教授学生很棒的东西。只有一个问题，它不会检查学生的数学。如果有错误的数学，它会快乐地假装 1+1 等于 3 并运行它。」

文章插图
因此，我们需要收集一些反馈数据。
萨尔·汗本人非常友善，他自己花了 20 小时时间与我们的团队一起为机器提供反馈。
在几个月的时间里，我们能够教会 AI，「嘿，你真的应该在这种特定的情况下反击人类。」
通过这种方式，我们实际上对模型进行了很多改进。当你在 ChatGPT 中按下那个不喜欢的大拇指时，实际上就像发送了一个蝙蝠信号给我们的团队，说「这是一个需要收集反馈的薄弱环节」。
因此，当你这样做时，这是我们真正倾听用户，并确保我们正在构建对每个人都更有用的东西的一种方式。
02
事实核查和人类反馈
提供高质量的反馈是一件困难的事情。如果你让一个孩子打扫房间，如果你只检查地板，你不知道你是否只是教他们把所有的玩具都塞进衣柜里。
同样的推理也适用于人工智能。随着我们前往更困难的任务，我们必须扩大我们提供高质量反馈的能力。但为此，AI 本身乐意提供帮助。它很乐意帮助我们提供更好的反馈，并随着时间的推移扩大我们监督机器的能力。
让我给你展示一下我的意思。