|专访ACL2020最佳论文二作：全新NLP模型评测方法论，思路也适用于CV

本文插图

作者 | 陈大鑫
编辑 | 丛末
现在， ACL2020各个奖项都已悉数公布，对此AI科技评论做了详细报道。其中，最受人瞩目的当属最佳论文奖，今年该奖项由微软团队的《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》一举拿下。
小编看到论文题目的第一眼就觉得哪些有些不对，于是赶紧通读了一下文章，嗯~确实不太对，这貌似和之前我们熟悉的NLP“大力出奇迹”的模型套路不太一样啊？
那么这篇论文到底讲了什么呢，又何以摘得桂冠呢？
论文解读以外，我们进一步对论文的第二作者吴彤霜进行了专访，以更深入地了解最佳论文团队背后的工作。

本文插图

1
论文方法一览
我们从论文的题目入手来了解一下这篇论文在讲什么。
首先是''Beyond Accuracy''：这是在说要超越Accuracy ，这里Accuracy说的是NLP模型在各大数据集和任务上跑出的准确率，也即是性能的一种度量。
那既然要超越它总要有一个理由:
1.评估所用的训练-验证-测试划分集来估计模型的准确性时保留的数据集往往不全面。
2.测试集中往往包含与训练数据相同的偏差，这种方式可能高估了模型在真实世界的性能
3.通过Accuracy一刀切的方式很难找出模型失败在哪里，以及如何修复它。
对此本文提出的Beyond 方式又是如何呢？
Behavioral Testing of NLP Models with CheckList！也即用CheckList对NLP模型做行为测试。

本文插图

上图是论文一作Marco Tulio Ribeiro在大会上做的展示，我们以此展开对CheckList的介绍。
1、We should test NLP models
训练NLP模型的主要目标之一是泛化，虽然Accuracy是评价泛化的主要方法，但它往往高估了NLP模型的性能，用于评估模型的替代方法要么侧重于单个任务，要么侧重于特定的行为， benchmark的准确性不足以评估NLP模型。
除此之外许多额外的评估方法已经被提出来了，例如评估对噪声或对抗性变化的鲁棒性、公平性、逻辑一致性、可解释、诊断数据集和交互式错误分析。然而，这些方法要么侧重于单个任务，如问答或自然语言推理，要么侧重于一些能力（如鲁棒性），因此没有提供关于如何评估模型的全面指导。
因此在这这篇论文中，作者提出了CheckList(检查表) ，一种新的评估方法和配套工具，用于NLP模型的综合行为测试。
2、Software engineering->NLP
软件工程研究提出了测试复杂软件系统的各种范式和工具。特别是“行为测试”（黑盒测试）是指在不了解内部结构的情况下，通过验证输入输出行为来测试系统的不同能力。虽然有明显的相似之处，但软件工程的许多见解还没有应用到NLP模型中。
作者借鉴软件工程中行为测试的原理提出了CheckList：一种和模型、任务都无关的测试方法，它使用三种不同的测试类型来测试模型的各个功能。
作者用三个任务的测试来说明检查表的效用，识别商业和SOTA模型中的关键错误。在一项用户研究中，一个负责商业情绪分析模型的团队在一个经过广泛测试的模型中发现了新的、可操作的bug 。在另一个用户研究中，使用CheckList的NLP实践者创建了两倍多的测试，发现的bug几乎是没有检查表的用户的三倍。

本文插图

|专访ACL2020最佳论文二作：全新NLP模型评测方法论，思路也适用于CV

推荐阅读

凯瑞利|为3000元他把自己“卖了” 结果惹来一身贷款

我是那水还是鱼|经常让人很无语，12生肖这4大生肖：一生气就秒变闷葫芦

【马先生8195】致“另类”逆行者——医疗设备工程师

郭碧婷|女明星咋叫婆婆？郭碧婷喊妈咪，张嘉倪称阿姨，唐嫣称呼情商高

嘻哈飞车族|果粉为什么拒绝更新系统？，百分之7的iPhone还停留在iOS12

西安人|西安人城墙根下的生活，有着最真实的人间烟火气，始于太阳初升

金羊网|羊晚专访谢晋元次子谢继民——“八百壮士”背后的故事

辞远防务观察|却被俄米格-29尾随拦截，北约不断挑衅！军机故意抵近边境侦察

珠宝玉之窗|但多数传承有序不外流，西班牙王室的珠宝没有英王室奢华

新华社|“90后”湘妹子：我在新疆带货助农

越红工夫茶制作二

水利部|水利部：切实做好西南西北黄淮及华北地区强降雨防范工作

杂文体育|儿子年仅2岁，中甲队欠薪1年引来悲剧！年轻队医选择结束生命

「巴西」巴西4岁小男孩冲浪技术娴熟 2岁时已学会独自站立

这是什么“神仙颜值”！在妈妈的开放育儿理念下，女儿们太优秀

时尚小风车|迷人靓丽的美女街拍：时尚潮流的美女，将好身材展现的淋漓尽致！

我承认我自卑我真的很怕黑是什么歌我承认我自卑

「一组动图警示你」：倒车猛于虎，远离车屁股

医院|浙江织里因疫情元旦前要封城？官方辟谣

江门台该如何预防？，夏日汽车自燃现象频发