|清华构建新一代数据集NICO,定义图像分类新标准

【|清华构建新一代数据集NICO,定义图像分类新标准】
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

每件事物的出现都有它各自的使命 , 我们今天提数据集就不得不提到ImageNet , ImageNet数据集及其它推动的大规模视觉比赛对人工智能特别是计算机视觉领域的巨大贡献是毋庸置疑的 。
正如李飞飞所言 , ImageNet已经完成了它的历史使命 , 然而数据集的发展和变革却不能停下脚步 。 但是目前绝大部分的数据集都是基于独立同分布的实验场景设定 , 并没有考虑到数据本身的特性 , 也没有更多因果关系可言 , 这对于模型的泛化帮助甚微 , 也很难看到新一代数据集的萌芽 。
针对这些问题 , 近日 , 清华大学计算机系长聘副教授崔鹏团队构建了一个新型的具有跨数据集泛化性指标的数据集NICO,该数据集的发布旨在引起大家对新型数据集的更多关注 , 并促进对人工智能内在学习机制的研究 。
AI科技评论邀请到崔鹏团队对NICO数据集及其背后的论文:《Towards Non-IID Image Classification: A Dataset and Baseline》进行了详细解读 , 并针对下一代数据集的标准和NICO数据集相关的问题进行了专访 。
1 NICO数据集
我们都知道视觉模型的性能会随着测试环境的差异而发生变化 , 那么这种泛化性能的改变应该如何归因、又该如何提升呢?现在我们有了一个可以“控制”环境偏差并定量研究的图像数据集 。
近年来 , 深度学习技术使得视觉模型的性能得到了突飞猛进的发展 , 甚至在一些任务上超越了人类的平均水平 , 但这些结果背后的根基是海量的训练数据和独立同分布的实验场景设定 。
独立同分布(I.I.D.:训练环境和测试环境有相同的数据分布)是机器学习问题中最普遍的假设之一 。 I.I.D.假设的存在使得我们在最小化模型训练环境的风险损失的条件下 , 也能保证其在测试环境中也有好的表现 。 理想很美好 , 但现实呢?我们认为结论显然是否定的 , 在真实场景下由于时空的约束性 , 训练数据“一旦采集 , 就已落后” , 时空维度上的跨度不可避免地会带来数据分布上的异质性 , 从而打破I.I.D.假设 。 例如对于自动驾驶而言 , 最大的考验就是不可预测的驾驶场景:更新换代的模型、不曾见过的街景、甚至是行人潮流穿搭上的变化都可能成为危险的诱因 。
那么为什么机器学习模型容易在数据分布变化时出现决策失误呢?因为它可能学到了不具备泛化性能的关联性 。 例如下图展示的例子 , 分类器训练时看到的狗大多在草地上、而猫大多在雪地上 , 为了最小化训练的风险损失 , 就可能把草地当作判断狗的要素;当测试时看到草地上的猫 , 它就会“指猫为狗” 。
|清华构建新一代数据集NICO,定义图像分类新标准
本文插图

相对I.I.D.假设下的模型学习 , 这种训练环境和测试环境的数据分布不同的问题称为Non-I.I.D.或者OOD(Out-of-Distribution) 。
其实在视觉学习的领域 , 早在2011年MIT的研究者Antonio Torralba就在《Unbiased Look at Dataset Bias》一文中对于视觉任务中不同的标杆数据集之间存在偏差的现象作了初步的探索 。 该文提出已有视觉数据集的不断推出无非给视觉模型和算法一个单纯的”跑分“而已 , 对于深入理解视觉研究问题 , “量变”似乎还无法引发“质变” 。
为此 , 该论文提出了一种“跨数据集泛化性”(Cross-dataset generalization)指标 , 即用来自不同数据集的图像分别构成训练集和测试集 , 通过模型性能的下降幅度来评估数据集之间的偏差 , 这种评估策略也逐渐成为日后领域自适应学习 (Domain Adaptation)中用于评价模型泛化性能的核心指标 。 由此 , 我们发现Non-I.I.D.远比想象的更加常见 , 甚至可以在最有公信力的I.I.D.图像数据集ImageNet上找到Non-I.I.D.的影子 。 ImageNet本身是一个树状结构 , 如动物类别“猫”下面还有更细化的子类“波斯猫”等 。 如果用不同的子类构成分类10种动物类别(“猫”、“狗”、“鸟”等)的训练和测试数据 , 数据环境会有什么变化呢?我们以特征空间上的分布差异指标NI(C)来描述单个类别C在训练和测试时的分布差异 , 用NI(C)在所有类别上的均值来衡量训练集和测试集的分布差异 。


推荐阅读