孤惯|通用人工智能啥时候能实现?这是我的最新预测( 六 )


从那以后 , 有很多成功的例子都是由扩大模型来实现的 , 我现在认为这个平衡更像是 65% 的计算 , 35% 的算法 。 我怀疑许多类似人类的学习行为可能只是更大模型的突显特性 。 我还怀疑 , 许多人类认为是“智能的”、“有意的”事物 , 其实都不是 。 我们只是想认为自己是聪明的、有意识的 。 我们不是 , 机器学习模型需要跨越的门槛也没有我们想象的那么高 。
如果计算发挥了更大的作用 , 那么时间轴就会加快 。 机器学习理念的瓶颈是机器学习社区的规模和发展 , 而更快的硬件是由全球消费者对硬件的需求推动的 。 后者是一股更强大的力量 。
让我们先回到 GPT-3 。 GPT-3 并不是你可以构造最大的 Transformer , 因此 , 有理由建造更大的 Transformer 。 如果将大型 Transformer 的性能标度为 2 数量级(15 亿个参数用于 GPT-2 , 1750 亿个参数用于 GPT-3) , 那么再标度为 2 数量级也不会太奇怪 。 当然 , 也可能不会 。 ( Kaplan 等人 , 2020 年)标度律应该从参数 10121012 开始相互矛盾 。 这与 GPT-3 相差不到 1 个数量级 。 不过 , 这并不意味着该模式将停止改进 。 这只是意味着它会以不同的速度提高 。 我不认为有什么好的理由可以证明我们应该相信一个 100 倍的模型在质量上不会有什么不同 。
尤其是你转向多模态学习(multi-modal learning)的时候 , 更是如此 。 专注于 GPT-3 的文本生成是遗漏了主要的情节线程 。 如果你相信传言 , OpenAI 一直致力于将音频和视频数据纳入他们的大型模型中 。 到目前为止 , 他们的研究产出与此一致 。MuseNet 是一个基于大型 Transformer 的音频生成模型 。 最近的 Image GPT 是针对图像的生成模型 , 也是基于大型 Transformer 的 。
MuseNet 问世时 , 是不是当时最先进的音频合成技术?不是 。 Image GPT 是图像生成的最新技术吗?也不是 。 专门针对音频和图像生成的模型架构比 MuseNet 和 Image GPT 做得更好 。 若专注于这一点 , 就忽略了 OpenAI 所要表达的观点:一个足够大的 Transformer 并非最先进的 , 但它在这些截然不同的数据格式上做得足够好 。 还有比 MuseNet 更好的模型 , 但它仍然足够支持一些愚蠢但也许有用的音频完成 。
如果你已经证明一个大型 Transformer 可以单独处理音频、图像和文本 , 为什么不去试试同时对这三个进行测试呢?据推测 , 如果所有的模态都经过类似的神经网络架构 , 大概这种多模态学习将会更容易 , 而他们的研究表明 , Transformer 的工作足以成为这种架构 。
OpenAI 可以利用他们已经拥有的关于大型 Transformer 的任何直觉 , 这一点很有帮助 。 一旦加入其他数据流 , 肯定会有足够的数据来训练更大的无监督模型 。 当然 , 你也可以只使用文本 , 但你也可以使用所有的网络文本 , 所有的视频和所有的音频 。 只要你能够扩展到足够大的规模 , 就不应该有什么取舍 。
大型 Transformer 会是我们将使用的最后一个模型架构吗?不 , 也许不是 。 它们目前的一些弱点似乎难以解决 。 但我确实看到了它们的发展空间 , 可以做得比目前更多 。 模型架构只会越来越好 , 所以扩展现有模型的能力一定是 10 年或 20 年后 , 更强的模型架构的扩展版本所能实现的下限 。 现在可能发生的事情已经很有趣了 , 但也略微让人担忧 。
整体局势在“ You and Your Research ”(《你和你的研究》中 , Richard Hamming 曾提出一条著名的建议:“你所在的领域中 , 重要问题是什么?为什么你不去研究它们?”当然 , 通用人工智能是机器学习最重要的问题之一 。
那么 , 对于机器学习来说 , 这个问题的自然版本是 , “需要解决哪些问题 , 才能实现通用人工智能?”你希望这个领域在到达那里的路上会遇到哪些路标 , 这些路标之间的路径有多少不确定性?


推荐阅读