以下文章来源于Founder Park ,作者Founder Park
AI target=_blank class=infotextkey>OpenAI 的联合创始人,三位核心成员之一的 Greg Brockman 日前在 TED2023 上发表演讲,过程中演示了足以取代上周爆火的 AutoGPT 的新功能,还有 OpenAI 在人机协作方面的思考和进展 。
以下是演讲内容,经 Founder Park 编辑整理 。
七年前,我们创办了 OpenAI 。因为人工智能领域正在发生一些非常有趣的事,我们想引导它向积极的方向发展 。
从那天到现在,整个领域取得了难以置信的进展,令人惊叹 。
人们为之兴奋,也为之担忧 。这也是我们所感受到的 。
最重要的是,我们似乎正在进入一个历史性时期,全世界都在定义一个对人类社会的未来至关重要的技术 。
我相信我们可以善加引用这项技术 。
今天我想向你们展示的,就是这项技术最新的进展,以及一些我们一直秉承的基本设计原则 。
01
教会 AI 使用工具
首先,我想展示,如何为 AI 开发工具,而不是为人类开发工具 。
Greg 展示了如何用 ChatGPT 策划一顿晚饭,用 Dall-E 绘制出来,用第三方插件列出制作这顿晚饭的菜单,并发布到推特上 。
所有这些动作,都由 ChatGPT 自动完成,但用户又可以在每一个关键动作中介入操作 。
我们继续 。前面展示的这个案例,关键不仅仅在于如何创建工具,更重要的是如何教会 AI 使用它们 。
(它需要理解)当我们在问这些相对复杂的问题时,我们究竟想让它做些什么?
为此,我们使用了一种古老的想法 。
如果你回看阿兰·图灵 1950 年关于图灵测试的论文,他说,你永远不会为这个问题编写答案 。,相反,你可以学习 。你可以设计一个机器,就像一个人类孩子一样,然后通过反馈来教它 。
让一个人类老师在它尝试和做出好或坏的事情时提供奖励和惩罚 。这正是我们如何训练 ChatGPT 的方法 。
这是一个两步流程 。
第一步,我们通过无监督学习过程生成了图灵所谓的儿童机器 。
我们只是向它展示整个世界、整个互联网,并说:「预测你从未见过的文本中的下一个内容 。」
这个过程赋予了它各种厉害的技能 。
比如这个数学问题,问它下一个词是什么?那个绿色的「9」,就是数学问题的答案 。
文章插图
但是我们还需要做第二步,也就是教 AI 如何使用这些技能 。
为此,我们提供反馈 。
我们让 AI 尝试多种方法,给我们多个建议,然后人类对它们进行评分,说「这个比那个好」 。这不仅强化了 AI 所说的具体内容,而且非常重要的是,强化了 AI 用于产生答案的整个过程 。这使它能够概括 。它可以推断你的意图并将其应用于它以前没有看到过的情景,那些没有收到反馈的情况 。
【OpenAI 创始人最新演讲:ChatGPT 炸裂新功能,分享怎样教 AI 使用工具】现在,有时我们需要教 AI 的东西并不是你所期望的 。
例如,当我们首次向可汗学院展示 GPT-4 时,他们说:「哇,这太棒了,我们将能够教授学生很棒的东西 。只有一个问题,它不会检查学生的数学 。如果有错误的数学,它会快乐地假装 1+1 等于 3 并运行它 。」
文章插图
因此,我们需要收集一些反馈数据 。
萨尔·汗本人非常友善,他自己花了 20 小时时间与我们的团队一起为机器提供反馈 。
在几个月的时间里,我们能够教会 AI,「嘿,你真的应该在这种特定的情况下反击人类 。」
通过这种方式,我们实际上对模型进行了很多改进 。当你在 ChatGPT 中按下那个不喜欢的大拇指时,实际上就像发送了一个蝙蝠信号给我们的团队,说「这是一个需要收集反馈的薄弱环节」 。
因此,当你这样做时,这是我们真正倾听用户,并确保我们正在构建对每个人都更有用的东西的一种方式 。
02
事实核查和人类反馈
提供高质量的反馈是一件困难的事情 。如果你让一个孩子打扫房间,如果你只检查地板,你不知道你是否只是教他们把所有的玩具都塞进衣柜里 。
同样的推理也适用于人工智能 。随着我们前往更困难的任务,我们必须扩大我们提供高质量反馈的能力 。但为此,AI 本身乐意提供帮助 。它很乐意帮助我们提供更好的反馈,并随着时间的推移扩大我们监督机器的能力 。
让我给你展示一下我的意思 。
推荐阅读
- 最新电影票房排行榜2022年
- 实物黄金买卖规则最新
- 三本院校最新排名榜
- 最新三本院校排名榜
- 3d捕鱼游戏排行榜最新
- 最新的oppo手机要多少钱一个
- 中国天气网排行榜最新
- 空间大省油的suv车排行榜最新
- 异界异能小说排行榜最新版
- 2017年网络歌曲排行榜最新