孤惯|通用人工智能啥时候能实现?这是我的最新预测( 三 )


与其花一个月的时间去琢磨一个无监督机器学习的问题 , 还不如用一个礼拜的时间给一些数据贴上标签 , 然后训练一个分类器 。
—— Richard Socher (@RichardSocher) , 2017 年 3 月 10 日
我不会说无监督学习一直没用 。 在 2010 年 , 人们普遍认为 , 深度学习在开始监督式学习之前 , 应该先经过一个无监督的预训练步骤 。 参见 Erhan 等人在 JMLR 2010 发表的论文《为什么无监督的预训练有助于深度学习?》(Why Does Unsupervised Pre-training Help Deep Learning?) 。 2015 年 , 像 GloVe 和 word2vec 这样的自我监督词向量可以自动学习词汇之间的有趣关系 。 作为一个 2015 年左右开始机器学习的人 , 这些无监督学习的成功感觉就像是规则的例外 。 大多数其他应用都依赖于标签 。 预训练的 ImageNet 特征是最接近一般行为的东西 , 这些特征是通过监督式学习从头开始学习的 。
我一直都认为 , 无监督学习是未来的趋势 , 也是正确的方式 , 只要我们弄清楚如何去实现 。 但是 , 伙计 , 我们已经花了很长时间来尝试实现 。 这让我对过去几个月的半监督学习和无监督学习的论文印象深刻 。 Momentum Contrast( He 等人 , VCPR 2020 )相当不错 , SimCLR( Chen 等人 , ICML 2020 )在此基础上有所改进 , Bootstrap Your Own Latent( Grill、Strub、Altché、Tallec、Richemond 等人 , 2020 年)在此基础上也有所改进 , 然后是 GPT-3, 这个我待会儿再讲 。
当我在思考是什么让机器学习变得困难时 , 趋势线指向更大的模型和更大的标记数据集 。 它们现在还在指那个方向 。 我的结论是 , 未来的机器学习进展将受到标签要求的瓶颈 。 定义一个 10 倍大的模型很容易 , 而训练一个 10 倍大的模型却更难 , 但它并不需要 10 倍多的人来工作 。 获得 10 倍的标签就可以了 。 是的 , 数据标签工具会越来越好 ,Amazon Mechanical Turk 非常受欢迎 , 甚至有一些创业公司的使命就是提供快速的数据标签服务 。 但标签本质上就是关于人类偏好的问题 , 这就很使它难逃脱人类的劳动 。
强化学习的奖励功能也有类似的问题 。 原则上 , 在你定义什么是成功后 , 模型就会找到解决方案 。 实际上 , 你需要一个人来检查模型是否正在“黑掉”奖励 , 或者你的奖励函数是由人类评级者隐形定义的 , 这就变成了同样的标签问题 。
带标签的大型数据集不会平白无故地出现 。 它们需要深思熟虑的、持续的努力才能产生 。ImageNet 能够在 CVPR 2019 上获得时间测试奖不是没有原因的——那篇论文的作者发表并完成了这项工作 。 如果机器学习需要更大的标记数据集来推动性能 , 并且模型不断以数量级保持增长 , 那么你就会到达一个这样的临界点 , 取得进展所需的人类监督量将是疯狂的 。
(这甚至还没有涉及到标签不完美的问题 。 我们发现 , 在流行的基准测试中使用的许多有标签的数据集就包含了大量的偏见 。 这并不奇怪 , 但现在它已经越来越接近常识 , 用自由放任的标签系统构建一个大型数据集 , 将不再可行 。 )
好吧 , 嗯 , 如果 10 倍的标签是个问题 , 那有没有办法绕过这个问题呢?一种方法是 , 如果你不需要 10 倍的标签来训练一个 10 倍大的模型 。 关于这方面的信息挺复杂的 。 一篇标度律(Scaling law)的论文( Hestness 等人 , 2017 年)建议模型大小随数据集大小次线性(sublinearly)增长 。
我们期望拟合一个数据集的模型参数的数量应该遵循 s(m)∝αmβps(m)∝αmβp , 其中 s(m)s(m) 是一个拟合一个大小为 mm 的训练集所需的模型大小 。
不同的问题设置具有不同的悉数 , 图像分类遵循 βp=0.573βp=0.573 幂定律 , 而语言建模遵循 βp≈0.72βp≈0.72 线 。
孤惯|通用人工智能啥时候能实现?这是我的最新预测图像分类趋势线(左)和语言建模趋势线(右)(来源: Hestity 等人 , 2017 年


推荐阅读