|清华构建新一代数据集NICO,定义图像分类新标准( 三 )


4、对抗偏差:通过精心组合训练集和测试集的主体对象/上下文 , 我们可以专门干扰模型对某个指定类别(正类)的预测 。 如果一个上下文在训练环境里仅和正类组合出现 , 而测试环境里仅和负类组合出现 , 我们称它是混淆因素 , 因为这个上下文会产生和正类的虚假强相关性 , 误导模型分类 。 显然 , 这样的混淆上下文越多 , 正类上的数据分布差异也就越大 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

虽然NI的区间变化很大 , 利用NICO就能很容易地创建这些经典的Non-I.I.D.场景 , 然后进行多样的科学研究 。 假设测试环境的信息已知 , 你可以做迁移学习、域适应性学习等研究;如果测试环境的信息不知 , 也可以进行稳定机器学习等方面的研究 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

目前为止 , NICO以树状结构组织了2个超类(交通工具类和动物类)、19个类(鸟、…、火车)、以及每个类别下的9或10种上下文 , 共累积了188种(主体对象 , 上下文)组合 , 收集了约25000张图像 , 其规模也正不断扩大 。 对于热火朝天的人工智能而言 , Non-I.I.D.下机器学习的稳定性已成为新的战场 。 靶(数)子(据)?NICO提供了一个很好的选择 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

更多关于NICO的细节请参见NICO的官方网站:http://nico.thumedialab.com, 或者相关的论文《Towards Non-IID Image Classification: A Dataset and Baseline》 。
2 问答专访
一、新一代数据集应该是怎样的标准?
1、ImageNet开启了数据集的黄金时代 。 在ImageNet之后的各种数据集通常都会在哪些方面做到差别化?
差异化体现在数据集的建立初衷、目标问题、适用场景;以及样本提供的不同信息 , 比如标签、上下文等 。
2、新一代数据集是任务通用的吗还是分任务进行分门别类构建?
一般会先以某些任务为目标构建起来;然后随着数据集的发展丰富 , 以及研究人员的灵活使用 , 逐渐通用 。
3、新一代数据集是考虑加入因果关系吗?该怎么加?
数据集本身是不考虑因果关系的 , 但可以通过构造有数据分布偏差的训练和测试集 , 支持因果的研究 , 比如NICO可以在训练环境和测试环境组合不同的(主体对象 , 上下文)单元 。
4、如果是检测任务 , 背景的影响还有那么重要吗?
对于检测任务 , 图像的背景对模型性能的影响较小;但是NICO的上下文不仅包括背景 , 还包括主体对象的属性 , 比如色彩、动作等 , 其带来的分布差异也会影响模型 。
二、针对NICO数据集本身的问题
1、NICO数据集建立的初衷是什么?相比传统数据集有什么优势?
NICO数据集建立的初衷是吸引更多机器学习的研究者关注智能认知的本质机理 。 这样的机理将更接近人类智慧的习惯(比如因果) , 因此具备跨环境的稳定性和鲁棒性 。 为了支持以上研究 , 区别于传统数据集 , NICO的图像样本除了主体类别标签 , 还有唯一的上下文信息描述主体的属性或者背景 , 通过在训练环境和测试环境中以不同比例组合不同的(主体对象 , 上下文)单元 , 可以灵活方便地构造数据环境模拟不同的Non-I.I.D.场景(见补充材料) , 支持对智能认知的本质机理的研究 。
2、NICO数据集只适用于CV中的识别分类任务吗?
识别分类任务是当前NICO中设立的标准任务 , 但NICO不限于识别分类任务 , 研究人员可以利用上下文信息自行设计更多有意思的任务;另外 , 我们后续对NICO的优化和补充可能会细化上下文或者提供更多的图像标注 , 进而孵化出更多的任务 。


推荐阅读