|清华构建新一代数据集NICO,定义图像分类新标准( 二 )


|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

考察随机选择子类并构成的三个数据集A、B、C , 可以看到:1)Non-I.I.D.普遍存在于各训练集的各种类别中;2)不同训练集的组成会带来数据分布差异的不同 。 然而 , ImageNet等数据集并非为Non-I.I.D.问题而设计 , 它们能造成的数据偏差都不明显 , 偏差程度也很难调控 , 不足以支持充分的研究 。 我们还发现 , 数据分布的差异大小将直接影响模型学习的好坏 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

区别于I.I.D.下传统图像任务的定义 , Non-I.I.D.把“跨数据集泛化性”作为主要的评价标准 。 以基本的图像分类任务为例 , Non-I.I.D.下的图像分类分为Targeted类和General类 。 两类任务的区别在于是否已知测试环境的信息 , 目标都是从训练环境中学习可以泛化到有数据分布偏差的测试环境的模型 。 显然 , 随着不同类型、任务、规模的数据集不断提出 , 单单通过排列组合来考察“跨数据集泛化性”带来的边际效应越来越低 , 从实际研究的?度出发 , 整个研究社区亟需?个可以系统、定量地研究数据分布偏差与模型泛化性能的标杆数据集 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

在《面向分独立同分布图像分类:数据集和基线模型》(Towards Non-IID Image Classification: A Dataset and Baseline) 一文中 , 我们提出了一个带有“调节杆”的多分类图像数据集 (NICO) , 用于模拟训练和测试集分布不同条件下的图像分类任务场景 , 辅以定量刻画数据分布偏差的指标”Non-I.I.D. Index“ (NI) 。 通过“调节杆” , 我们可以手动调节不同档位的NI , 从而模拟一连串不同难度的场景 , 从接近经典数据集下的“无偏”环境平滑过渡到加入对抗信息的“极偏”环境中 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

区别于其它标准数据集 , 构建NICO数据集的核心思想是以(主体对象 , 上下文)的组合为单位收集数据 。 同一个类别(主体对象) , 有多个上下文与之对应 , 描述主体内的属性 , 如颜色、形状等 , 或主体外的背景 , 如草地、日落等 。 为了实用性和适用性 , 我们从搜索引擎上与主体最密切的联想词中筛选出丰富多样的上下文 , 并保证不同主体的上下文有足够的重叠度 。 上下文实际上提供了围绕主体的有偏数据分布 , 通过在训练环境和测试环境组合不同的(主体对象 , 上下文) , 我们就能构建不同的Non-I.I.D.场景 。 可以构建的场景包括但不限于:
1、最小偏差:NICO可达到的近似“I.I.D.” , 通过随机采样使训练和测试环境的所有(主体对象 , 上下文)单元的数据比例相同 。 最小偏差描述了数据集本身的学习难度和数据噪声 , 此时的实验指标(如分类准确率)一般可作为best score 。
2、比例偏差:虽然训练和测试环境中出现(主体对象 , 上下文)的组合相同 , 但是不同单元之间的比例不同 。 比如 , 我们可以选择从指定上下文中收集某个类别的大部分训练数据 , 不同对象由不同上下文主导 , 就容易造成模型的参数偏差 。
实验表明 , 主导的上下文的比例越大 , 数据分布的差异也就越大 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

3、成份偏差:测试环境中存在训练环境中没出现过的(主体对象 , 上下文)单元 , 算作比例偏差的一个特例 。 成分偏差考验了模型对外插数据的泛化能力 , 没见过的上下文组合越多 , 数据分布差异越大 , 也就越难学 。 我们还可以在训练集中对不同类别再次设置主导的上下文 , 进一步增加分布差异 。


推荐阅读