产业气象站|他们发现追求SOTA其实没什么意义,扒出了3万个基准测试结果

机器之心报道
编辑:蛋酱、张倩
在追求SOTA之前 , 研究者们或许更应该认真审视「基准」本身 。
产业气象站|他们发现追求SOTA其实没什么意义,扒出了3万个基准测试结果
文章图片
在基准数据集上比较模型性能是人工智能领域衡量和推动研究进展的重要方式之一 。 研究者通常基于模型在基准数据集上的一个或一组性能指标进行评估 , 虽然这样可以快速进行比较 , 但如果这些指标不能充分涵盖所有性能特征 , 就可能带来模型性能反映不充分的风险 。
目前我们还不清楚这会在多大程度上影响当前的基准测试工作 。 为了解决这个问题 , 来自维也纳人工智能与决策研究所的研究者对过往3867篇论文中机器学习模型的性能指标进行了分析 , 所用数据均来自机器学习开放平台「PaperswithCode」 。
研究结果表明 , 目前用于评估分类AI基准任务的绝大多数指标都有一些缺陷 , 无法充分反映分类器的性能 , 特别是用于不平衡的数据集时 。
产业气象站|他们发现追求SOTA其实没什么意义,扒出了3万个基准测试结果
文章图片
论文链接:https://arxiv.org/ftp/arxiv/papers/2008/2008.02577.pdf
在这次分析中 , 研究人员查看了2000年到2020年6月期间发表的3867篇论文中的32209个基准结果 , 这些结果来自2298个数据集 。 他们发现 , 这些研究总共使用了187个不同的top-level指标 , 其中最常用的指标是「准确率(Accuracy)」 , 占据基准数据集的38% 。 第二和第三常见的指标是「精度(Precision)」、「相关实例在检索到的实例中的占比」和「F值」(即精度和召回率的加权平均值) 。
除此之外 , 就涵盖自然语言处理的论文子集而言 , 三个最常见的标准是BLEU评分(用于摘要和文本生成等)、ROUGE评价指标(视频字幕和摘要)和METEOR(问答) 。
产业气象站|他们发现追求SOTA其实没什么意义,扒出了3万个基准测试结果
文章图片
研究者表示 , 超过三分之二(77.2%)的已分析基准数据集中仅使用了一个性能指标 , 一小部分(14.4%)有两个top-level指标 , 6%的数据集有三个指标 。
论文中提到 , 这些指标还存在一些不合规的地方 , 例如将「areaunderthecurve」简称为「AUC」 。 「areaunderthecurve」是用来衡量准确率的标准 , 可以根据其绘制的内容分成不同的类别:如果绘制的是精度和召回率 , 就是PR-AUC;如果绘制的是召回率和假阳性率 , 就是ROC-AUC 。
同样的 , 有几篇论文提到了自然语言处理的基准ROUGE , 但未指出使用的是哪种变体 。
除了不一致的问题 , 还有很多论文中使用的基准都是有问题的 。 准确率通常被用于评估二元和多元分类器模型 , 当处理不平衡的语料库 , 并且该语料库在每个类的实例数上存在很大差异时 , 就不会产生有意义的结果 。 例如 , 如果给定的「类别A」占所有实例的95% , 那么 , 即使模型把所有实例都预测为「类别A」 , 也还是能达到95%的准确率 。
精度和召回率也是有局限性的 , 因为它们仅关注分类器预测为正(positive)的实例或者真正例(TruePositives) 。 二者都忽略了模型精准预测负实例的能力 。 至于F分数(F-score) , 有时它们给精度的权重比召回率大 , 为偏向预测占绝对优势类别的分类器提供了具有误导性的结果 。
在自然语言处理领域 , 研究者重点介绍了BLEU和ROUGE等基准测试的问题 。 BLEU不会考虑到召回率问题 , 也不会与人类对机器翻译质量的判断相关联 , 并且ROUGE没有充分涵盖依赖大量paraphrasing的任务 , 比如说包含许多不同发言者的生成式摘要和抽取式摘要 , 像会议记录这种 。
在所有分析的论文中 , 都没有使用更好的度量替代方法 。 例如Matthews相关系数、Fowlkes-Mallows指数 , 这些度量方法能够解决准确率和F分数指标中的一些缺点 。 实际上 , 在83.1%使用了「准确率」top-level指标的基准数据集中 , 没有任何其他的top-level指标 , 而在60.9%的数据集中 , F值是唯一的指标 。 自然语言处理领域的指标也是如此 , 被证明与人类跨任务判断强相关的METEOR仅使用了13次 , 用来评估生成文本与「正常」语言用法契合程度的GLEU仅出现了3次 。


推荐阅读