|专访ACL2020最佳论文二作:全新NLP模型评测方法论,思路也适用于CV( 五 )


写作上 , 因为marco在微软 , 我们很幸运能近水楼台找微软情感分析的工程组来做用户研究 , 让我们真的看到了CheckList在已经被认为是大规模测试过的模型仍然很有用 。
AI 科技评论:很开心你们把这项工作开源 , 我想这项工作只是一个开始对吗?(大家都可以在你们开源的代码上进行哪些尝试和改进呢 , 比如自定义测试模板之类)
吴彤霜:最重要的是希望能看到大家提出的测试实例!其实比起很多NLP模型 , CheckList是一个比较依靠人的力量的项目 , 测试者仔细设计实例才能用它最大程度暴露模型可能存在的缺陷 。 我们考虑的一个想法是希望可以做一个类似模型排行榜的测试榜 , 大家可以上传分享自己的测试集 , 甚至是顶或者踩别人的测试 , 最终让每个任务都能有一个比较稳定的测试集 , 也方便模型间的比较 。
其次 , 我们也很期待看到大家会不会有关于如何让CheckList更自动化的想法 , 实现一键测试这个终极目标 :)
以及更研究向的:
我个人对于设计更稳定的测试也很感兴趣 。 CheckList对具体实例比较敏感 , 不同人在测试同一个模型性能时 , 如果实例设计不同 , 最终测试结果可能会有一些偏差 。 有没有什么交互手段能帮助测试者尽量穷尽一个性能所有的相关改写?甚至还有没有什么办法能慢慢形成一些自动的测试拓展?这个可能也和上面提到的自动化有一些关系 。
最后测试带来的一个恒久不变的问题:so what?一个模型有问题之后 , 应该用什么样的标准来决定一个模型是不是可以被公开部署 (比如可能公平性测试的容错率可能远低于拼写错误)?应该如何改进它?
AI 科技评论:请问软件测试的思想只适用于NLP领域吗, 在CV领域可行吗 , 应该怎么去设计测试系统?
吴彤霜:我相信是可行的!抽象来讲 , 本文图1的这种框架似乎能直接套用在CV上 。
比如说一个最简单的狗和狼的分类 , 这个模型首先得能辨认有动物出现 (MFT) , 然后改变图片的背景应该不影响预测 (INV) , 但改变动物的头的形状应该是要影响的 (DIR) 。 vision里的“改写”效果其实比NLP好很多 , 也许更好用也说不定 :)
对设计系统而言 , 我觉得比较重要的是抽取基本组件 。 在NLP版本的CheckList里有一个重要组件就是写生成template/模板;也许在vision里则是需要提供一些基础像素之类的 。
当然也可以考虑除了行为和单元测试之外的测试思想 , 比如如果是pipeline模型 , 考虑如何设计集成测试也许也会很有用 :)
AI 科技评论:可以简单介绍一下你们的团队成员吗 , 以及你们的近期工作、未来研究方向?
吴彤霜:隆重介绍一下没有出镜的一作吧 , marco也是华大的博士 , 2018年毕业以后就加入了微软研究院 , 主要在做模型可解释性和分析 , 之前很有名的LIME(一种解释机器学习模型的方法——Local Interpretable Model-Agnostic Explanations)就是出自他手 。 除了CheckList , 他今年在CVPR上也有一篇合作论文 , 是分析vqa model的稳定性的 。 现在主要在做vision模型的错误分析以及模型比较 。
我们现在也在合作一个新工作 , 这项工作更多是关于如何人去探索模型的可解释性 。 虽然现在主要做的都是人如何检查模型 , 但是我们对于模型如何能反过来规范人或者帮助人也很感兴趣 :) 三四作Carlos和Sameer都是marco的导师 , 分别是ML和NLP的大佬 。
3
总结
【|专访ACL2020最佳论文二作:全新NLP模型评测方法论,思路也适用于CV】虽然CheckList目前也有一些不足比如CheckList不能直接用于非行为问题 , 例如数据版本控制问题、标记错误、注释器偏差、最坏情况下的安全问题或缺乏可解释性 。
但是不可否认的是 , 使用CheckList创建的测试可以应用于任何模型 , 这使得它很容易被纳入当前的基准测试或评估pipeline中 。 用户研究表明 , CheckList很容易学习和使用 , 对已经对模型进行了长时间测试的专家用户以及在任务中缺乏经验的实践者都很有帮助 。


推荐阅读