Science:AI领域那么多引人注目的「进展」,竟是无用功


选自Science
作者:Matthew Hutson
机器之心编译
参与:魔王
近日 , 一篇 Science 社论文章梳理了近年来 AI 各子领域的进展 , 发现看似红红火火的领域实际上毫无进展 。 在人工智能技术风起云涌的今天 , 这篇文章的观点或许值得我们思考 。
Science:AI领域那么多引人注目的「进展」,竟是无用功
本文插图
人工智能看似越来越聪明:芯片越来越快 , 数据越来越多 , 算法性能也比之前更好 。 但是一些改进来自于微调 , 而不是其创造者所说的核心创新 , 甚至有些改进根本不存在 , MIT 计算科学与人工智能实验室博士 Davis Blalock 如是说 。
Blalock 及其同事对比了数十种神经网络改进方法 , 发现「看完五十篇论文 , 愈发不明白当前最优性能是什么样了」 。
他们一共评估了 81 种剪枝算法 , 即通过修剪不必要的连接提高神经网络效率的方法 。 所有这些算法都声称自己具备更优秀的表现 , 但是它们甚至很少得到恰当的对比 。 这项研究将它们进行对比评估后 , 发现在过去十年中没有明确证据可以表明算法性能出现提升 。
相关研究《What is the State of Neural Network Pruning?》令 Blalock 的导师、MIT 计算机科学家 John Guttag 感到震惊 , 他表示 , 不公平的对比或许可以解释这一停滞现象 。 「老话说得好 , 如果你无法衡量一件事 , 就很难让它变得更好 。 」
近年来 , 研究人员发现多个 AI 子领域的进展实则「摇摇欲坠」 。
2019 年 , 一项针对搜索引擎所用信息检索算法的元分析发现 , 「高水位线早在 2009 年就已确立」 。
2019 年的另一项研究在 18 种推荐算法中仅成功复现了 7 种 , 而且其中 6 个在性能上无法超越多年前开发的更简单的非神经算法 。
而在今年三月的一篇 arXiv 论文《A Metric Learning Reality Check》中 , 康奈尔大学计算机科学家 Kevin Musgrave 对损失函数进行了评估 。 他以公平的方式在图像检索任务中对十几种损失函数进行对比 , 发现与损失函数发明者所声称的相反 , 自 2006 年以来模型准确率并未因此得到提升 。 Musgrave 表示:「总是会有这样的炒作 。 」
Science:AI领域那么多引人注目的「进展」,竟是无用功
本文插图
CMU 计算机科学家 Zico Kolter 表示 , 机器学习算法的性能提升来自于架构、损失函数或优化策略的基础改变 , 而对它们进行微调也能带来性能提升 。 Kolter 致力于研究免受「对抗攻击」影响的图像识别模型 。 早期的对抗训练方法叫做投影梯度下降(PGD) , 即在真实和欺骗性样本上训练模型 , 该方法后来似乎被一些更复杂的方法超越 。
但在今年 2 月的一篇 arXiv 论文《Overfitting in adversarially robust deep learning》中 , Kolter 及其同事发现 , 在使用简单的 trick 对这些方法进行增强后 , 所有方法的性能几乎相同 。
「这个结果令人吃惊 , 我们之前从未发现过这一点 。 」Kolter 的博士生 Leslie Rice 表示 。 Kolter 称该研究表明 PGD 这类创新很难实现 , 也很难出现实质性的改进 。 「很显然 , PGD 就是正确的算法 , 这是显而易见的 , 但人们想要找到更复杂的解决方案 。 」
另外一些重要的算法改进似乎经受住了时间的考验 。 1997 年长短期记忆(LSTM)的诞生带来了极大突破 。 在经过恰当训练后 , LSTM 与其诞生二十年后看似更先进的架构性能相当 。
另一个机器学习突破出现在 2014 年 , 它就是生成对抗网络(GAN) 。 2018 年的一篇论文《Are GANs Created Equal? A Large-Scale Study》称 , 只要有充足的计算量 , 原版 GAN 方法的能力可与近年来的新方法媲美 。
【Science:AI领域那么多引人注目的「进展」,竟是无用功】


推荐阅读