|Science:有调查有真相!某些AI领域多年无实际进展


|Science:有调查有真相!某些AI领域多年无实际进展
本文插图

作者 | 蒋宝尚
编辑 | 丛末
5月29日 , Science刊登了一篇标题为“人工智能某些领域的核心进展一直停滞不前”的文章 , 在文章里 , 作者Matthew Hutson提到:一些多年之前的“老算法”如果经过微调 , 其性能足以匹敌当前的SOTA 。
|Science:有调查有真相!某些AI领域多年无实际进展
本文插图

另外 , 作者在文章中还列举了一些论文 , 这些论文对当前关键的AI建模技术进行了分析 , 所有的分析结果主要有两种:1、研究员声称的核心创新只是对原算法的微改进;2、新技术与多年前的旧算法在性能上相差不大 。
具体到技术层面 , 论文对比分析的AI建模方法包括:神经网络剪枝、神经网络推荐算法、深度度量学习、对抗性训练、语言模型 。
科研有风险 , 入坑需谨慎 。 下面 , AI科技评论简要介绍这几篇论文 , 为大家提供避坑指南 。
1 神经网络剪枝:评价指标模糊
|Science:有调查有真相!某些AI领域多年无实际进展
本文插图

论文地址:
https://proceedings.mlsys.org/static/paper_files/mlsys/2020/73-Paper.pdf
对神经网络剪枝技术进行对比分析的论文是“What is the State of Neural Network Pruning?” , 论文一作是来自麻省理工的研究员Davis Blalock 。
他们通过对比81相关篇论文 , 并在对照条件下对数百个模型进行修剪后 , 明显发现神经网络剪枝这一领域并没有标准化的基准和指标 。 换句话说 , 当前最新论文发表的技术很难进行量化 , 所以 , 很难确定该领域在过去的三十年中取得了多少进展 。
主要表现在:1、许多论文虽然声明提高了技术水平 , 但忽略了与其他方法进行比较(这些方法也声称达到了SOTA) 。 这种忽略体现两个方面 , 一个是忽略2010年之前的剪枝技术 , 另一个是忽略了现在的剪枝技术 。
2、数据集和架构都呈现“碎片化” 。 81篇论文一共使用了49个数据集、132个体系结构和195个(数据集、体系结构)组合 。
3、评价指标“碎片化” 。 论文使用了各种各样的评价指标 , 因此很难比较论文之间的结果 。
4、混淆变量 。 有些混淆的变量使得定量分析变得十分困难 。 例如 , 初始模型的准确度和效率、训练和微调中的随机变化等等 。
在论文的最后 , Davis Blalock提出了具体的补救措施 , 并引入了开源的框架ShrinkBench , 用于促进剪枝方法的标准化评估 。 另外 , 此篇论文发表在了3月份的MLSys会议上 。
2 神经网络推荐算法:18种算法无一幸免
|Science:有调查有真相!某些AI领域多年无实际进展
本文插图

https://dl.acm.org/doi/pdf/10.1145/3298689.3347058
对神经网络推荐算法进行分析的论文是 “ Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches ” , 作者是来自意大利米兰理工大学的研究员 。
在论文中 , 作者对当前排名靠前的几种推荐算法进行了系统分析 , 发现近几年顶会中提出的18种算法 , 只有7种能够合理的复现 。 还有另外6种 , 用相对简单的启发式方法就能够胜过 。 剩下的几种 , 虽然明显优于baselines , 但是却打不过微调过的非神经网络线性排名方法 。
导致这种现象的原因 , 作者分析了三点:1、弱基准( weak baselines);2、建立弱方法作为新基准;3、在比较或复制不同论文的结果方面存在差异 。
为了得到上述结果 , 作者在论文中介绍 , 其共进行了两个步骤:第一步是用相关论文提供的源代码、和数据尝试复现论文结果;第二步 , 重新执行了原始论文中报告的实验 , 但也在比较中加入了额外的基线方法 , 具体而言 , 其使用了基于用户和基于项目的最近邻启发式方法 , 以及简单的基于图形的方法(graph-based approach)进行比较 。


推荐阅读