孤惯|通用人工智能啥时候能实现?这是我的最新预测( 五 )


GPT-3 有很多东西 , 但它的核心是一个系统 , 它使用大量的训练时间 , 将一个非常大的文本预料压缩成一组较小的Transformer 权重 。 最终的结果展示了一个令人惊讶的知识广度 , 可以缩小到许多不同的任务中 , 只要你能将这个任务变成文本的提示 , 以种子模型的输出 。 它是有缺陷 , 但技术演示的广度是有点荒谬的 。 同样值得注意的是 , 大多数这种行为都是由于善于预测文本的下一个标记而产生的 。
这个成功是上一节(更好的无监督学习)的一个具体例子 , 也是第一部分(更好的工具)的标志 。 尽管在故事生成中有很多有趣的东西 , 但我最感兴趣的是代码生成演示 。 它们看起来就像是“Do What I Mean”编程接口的早期迹象 。
这太让人兴奋了 。 使用 GPT-3 , 我构建了一个布局生成器 , 你只需在其中描述任何你想要的布局 , 它就会为你生成 JSX 代码 。
如果现有的技术演示可以提高 5 倍 , 那么 , 如果它们变成了具体细节变成的关键生产力助推器 , 我也不会感到惊讶 。 目前 , 系统设计、代码验证和调试很可能都是由人工来完成的 , 但很多编程都是在代码内“着色” 。 即使是低水平的功能也可能会改变游戏规则 , 就像 2000 年前的搜索引擎一样 。AltaVista 在 1998 年的访问量排名第 11 , 肯定比 Google/Bing/DuckDuckGo 现在能做的还要糟糕 。
我们可以看到 , 代码生成有用的一个具体方式是用于机器学习工作 。 比如神经结构搜索和黑盒超参数优化 。 围绕通用人工智能的常见争论之一是智能爆炸 , 而这类黑盒方法被视为一种潜在的智能爆炸机制 。 但是 , 它们长期以来一直存在一个关键的限制:即使你假定计算量是无限的 , 也必须有人实现代码 , 从实验参数到最终性能提供一个干净 API 。 可探索的搜索空间从根本上受到人类所认为的搜索空间维度的限制 。 如果你不设想搜索空间的一部分 , 机器学习就不能对它进行探索 。
机器人学习中的域随机化也存在同样的问题 。 这是我对 OpenAI Rubik Cube 结果的主要批评 。 这篇论文读起来像是一年来对 Rubik Cube 域随机化搜索空间的发现 , 而不是任何可泛化的机器人学习课程 。 最终的结果是基于一个从大量随机模拟中学习泛化的模型 , 但这个模型之所以能达到这个效果 , 是因为人们花费了大量的精力来确定哪些随机化值得实施 。
现在想象一下 , 每当你在模拟器中发现一个未知的新未知时 , 你可以非常快速地实现代码的更改 , 将它添加到你的域随机化搜索空间 。 嗯 , 这些方法看起来确实比较有前途 。
GPT-3 当然也存在一些问题 。 它有一个固定的注意力窗口 。 它没有办法从试图预测下一个文本字符的过程中学习任何它还没有学到的东西 。 要确定它知道什么 , 需要学习如何提示 GPT-3 给出你想要的输出 , 而不是所有简单的提示都能奏效 。 最后 , 它没有意图或代理的概念 。 它就是下一个词的预测器 。 这就是它的全部 , 我猜想 , 试图改变它的训练损失以增加意图或代理 , 将比听起来要困难得多 。 (而在我看来已经相当困难了!永远不要低估一个工作中的机器学习研究项目的惯性 。 )
但是 , 这又一次让我想起了很多早期的搜索引擎 。 当我还是个孩子的时候 , 为了让更好的搜索结果出现的频率更高 , 我被教导如何组织搜索查询关键词 。 要避免使用简短的词 , 将重要的关键词放在前面 , 不要输入完整的句子 。 我们之所以这样处理 , 是因为它的收益是值得的 。 GPT-3 可能与之类似 。
我现在期望计算将发挥更大的作用 , 并看到模型的发展空间出于我不想在本文中谈及的原因 , 我不喜欢这样的论点 , 即人们对人脑进行计算估计 , 采用摩尔定律曲线 , 推断出这两条曲线 , 然后宣布通用人工智能将在两条曲线相交时发生 。 我认为他们把讨论过于简单化了 。
然而 , 不可否认的是 , 在机器学习进程中 , 计算扮演着重要的角色 。 但人工智能的能力有多少是由更好的硬件让我们扩展现有模型驱动的 , 又有多少是由新的机器学习理念驱动的呢?这是一个复杂的问题 , 特别是因为两者并非独立的 。 新的想法可以让硬件得到更好的利用 , 而更多的硬件可以让你尝试更多的想法 。 我在 2015 年对这种可怕的简化的猜测是 , 通用人工智能进步的 50% 将来自计算 , 50% 将来自更好的算法 。 在 2015 年的模型之间缺失了几样东西 , 还有一些东西将“通用”放在了通用人工智能中 。 我不相信依靠更多的计算能解决这个问题 。


推荐阅读