孤惯|通用人工智能啥时候能实现?这是我的最新预测( 八 )


尽管 Google 早在 2006 年就考虑为神经网络打造特殊应用集成电路(Application-Specific Integrated Circuit , ASIC) , 但在 2013 年 , 情况变得紧迫起来 。 这时我们才意识到 , 神经网络快速增长的计算需求可能需要我们将运营的数据中心数量增加一倍 。
Google 需要在生产中运行更多的神经网络 。 这带动了更多的硬件投资 。 几年后 , 我们现在发展到了 TPU v3 , 有传言称 ,Facebook 正在招聘人员为 AR 技术定制芯片 。 因此 , 硬件需求的故事不仅仅是可信的 , 而且很可能是真实的 。 如果你可以扩展到做一些不切实际的事情 , 那么就会激发研究和需求 , 使其变得切实可行 。
在此基础上 , 我们假设跨模态学习结果比预期的规模化学习更容易 。 与 GPT-3 相似的涌现性出现了 。 目标跟踪和物理直觉被证明是自然发生的现象 , 只需从图像中学习 , 不需要直接的环境交互或体现 。 通过更多的调整 , 更大的模型 , 甚至更多的数据 , 你最终会得到一个丰富的图像 。 文本和音频的特征空间 。 从头开始训练任何同喜很快就会变得不可思议 。 你为什么要这样做?
在几个领域中 , 先前的大部分工作都已经过时了 , 如视觉的 SIFT 特征、机器翻译的分析树 , 以及语音识别的音素解码步骤等 。 深度学习已经扼杀了这些方法 。 那些对这些技术一无所知的人正在研究神经网络 , 在这三个领域都取得了最先进的成果 。 这有点让人感到难过 , 因为有些过时的想法 , 确实对我们理解语言和语音的方式进行了很酷的分解 , 但事实就是如此 。
随着模型变得越来越大 , 并不断显示出改进的性能 , 研究结合了一部分方法 , 这些方法已被证明可通过计算进行扩展 。 同样 , 这种情况在深度学习中也发生过 , 并且仍然在发生 。 当许多领域使用同一套技术时 , 你会得到更多的知识共享 , 这将推动更好的研究 。 CNN 对于考虑临近值有很强的先验性 。 它们最初用于图像识别 , 但现在对基因组学( Nature Genetics , 2019 年) , 以及音乐生成( van den Oord 等人 , 2016 年)都有影响 。 Transformer 是一种序列模型 , 最早用于语言建模 。 后来它们被用于视频理解( Sun 等人 , 2019 年) 。 这种趋势可能还会继续下去 。 机器学习已经达到了这样的一个地步 , 将某件事物描述为“深度学习”实际上是没哟爻的 , 因为多层感知已经与足够多的领域结合在一起 , 你无需在指定任何东西 。 也许过五年以后 , 我们会有一个新的流行词取代“深度学习” 。
如果这个模型擅长语言、语音和视觉数据 , 那么 , 人类有哪些“传感器”输入是这个模型所没有的?无非就是与物理化体现挂钩的传感器 , 比如味觉、触觉等 。 我们能说智能在这些刺激上遇到了瓶颈吗?当然可以 , 但我却不认为是这样 。 你可以说只需要文字就可以假装成人类 。
在上述的场景中 , 有很多事情要做好 。 多模态学习必须奏效 。 行为需要继续从规模扩展中出现 , 因为研究人员的时间主要是投入到帮助你实现规模化的想法中 , 而不是归纳先验 。 硬件效率必须与时俱进 , 这包括清洁能源发电和修复不断增加的硬件集群 。 总的来说 , 必须要做好的事情很多 , 这让我觉得不太可能 , 但还是有值得认真对待的可能性 。
我在我的故事中看到最有可能的问题是 , 对于语言以外的任何东西 , 无监督学习可能会更加困难 。 记住 , 在 2015 年 , 无监督学习为我们提供了用于语言的词向量 , 而对于图像却没有取得什么好的成绩 。 一个合理的假设是 , 语言的组合特性使得它非常适合于无监督学习 , 而这在其他输入模式中是不适用的 。 如果这是真的 , 我可能因为过分关注成功而高估了研究 。
正式由于这些原因 , 我只是将我的估计调整了几年 。 我并不认为 GPT-3 本身就是一个从根本上调整我所认为是可能的 。 我认为迁移学习比预期的要难也是一个障碍 。 但在网上 , 我看到的大多数理由都是加速我的估计 , 而不是放慢它们 。


推荐阅读