|清华构建新一代数据集NICO，定义图像分类新标准( 二 )

本文插图

本文插图

考察随机选择子类并构成的三个数据集A、B、C ，可以看到：1）Non-I.I.D.普遍存在于各训练集的各种类别中；2）不同训练集的组成会带来数据分布差异的不同。然而， ImageNet等数据集并非为Non-I.I.D.问题而设计，它们能造成的数据偏差都不明显，偏差程度也很难调控，不足以支持充分的研究。我们还发现，数据分布的差异大小将直接影响模型学习的好坏。

本文插图

区别于I.I.D.下传统图像任务的定义， Non-I.I.D.把“跨数据集泛化性”作为主要的评价标准。以基本的图像分类任务为例， Non-I.I.D.下的图像分类分为Targeted类和General类。两类任务的区别在于是否已知测试环境的信息，目标都是从训练环境中学习可以泛化到有数据分布偏差的测试环境的模型。显然，随着不同类型、任务、规模的数据集不断提出，单单通过排列组合来考察“跨数据集泛化性”带来的边际效应越来越低，从实际研究的?度出发，整个研究社区亟需?个可以系统、定量地研究数据分布偏差与模型泛化性能的标杆数据集。

本文插图

在《面向分独立同分布图像分类：数据集和基线模型》(Towards Non-IID Image Classification: A Dataset and Baseline) 一文中，我们提出了一个带有“调节杆”的多分类图像数据集 (NICO) ，用于模拟训练和测试集分布不同条件下的图像分类任务场景，辅以定量刻画数据分布偏差的指标”Non-I.I.D. Index“ (NI) 。通过“调节杆” ，我们可以手动调节不同档位的NI ，从而模拟一连串不同难度的场景，从接近经典数据集下的“无偏”环境平滑过渡到加入对抗信息的“极偏”环境中。

本文插图

区别于其它标准数据集，构建NICO数据集的核心思想是以（主体对象，上下文）的组合为单位收集数据。同一个类别（主体对象），有多个上下文与之对应，描述主体内的属性，如颜色、形状等，或主体外的背景，如草地、日落等。为了实用性和适用性，我们从搜索引擎上与主体最密切的联想词中筛选出丰富多样的上下文，并保证不同主体的上下文有足够的重叠度。上下文实际上提供了围绕主体的有偏数据分布，通过在训练环境和测试环境组合不同的（主体对象，上下文），我们就能构建不同的Non-I.I.D.场景。可以构建的场景包括但不限于：
1、最小偏差：NICO可达到的近似“I.I.D.” ，通过随机采样使训练和测试环境的所有（主体对象，上下文）单元的数据比例相同。最小偏差描述了数据集本身的学习难度和数据噪声，此时的实验指标（如分类准确率）一般可作为best score 。
2、比例偏差：虽然训练和测试环境中出现（主体对象，上下文）的组合相同，但是不同单元之间的比例不同。比如，我们可以选择从指定上下文中收集某个类别的大部分训练数据，不同对象由不同上下文主导，就容易造成模型的参数偏差。
实验表明，主导的上下文的比例越大，数据分布的差异也就越大。

本文插图

3、成份偏差：测试环境中存在训练环境中没出现过的（主体对象，上下文）单元，算作比例偏差的一个特例。成分偏差考验了模型对外插数据的泛化能力，没见过的上下文组合越多，数据分布差异越大，也就越难学。我们还可以在训练集中对不同类别再次设置主导的上下文，进一步增加分布差异。

|清华构建新一代数据集NICO，定义图像分类新标准( 二 )

推荐阅读

青年|DOTA2预测「IG vs SAG」版本打法鹤立鸡群，谁能更胜一筹拿下比赛

中子星|如果把一立方厘米中子星质量放在地球上，地球会不会被穿透？

「手机中国联盟」“新基建”5G率先发力！华为中兴基站芯片封测订单花落谁家？，

肝气郁结也可以引起慢性咽炎？

空白键|“电池日”前马斯克剧透：能量密度跃升50％不是梦“硅纳米线”或成关键

|湖北黄梅近500名考生因暴雨被困调集铲车冲锋舟转送

Miyashare|怡丽丝尔淡细纹，科颜氏牛油果最坑，爆款眼霜分析：小棕瓶很推荐

央视新闻客户端|俄罗斯告诫美国和欧盟：不要以任何形式干涉白俄罗斯内政

|张婧怡，在新一代小花里很不错的一位，有着天真率性的一面

新鲜青椒怎么做辣椒酱

人工智能科技改变生活，懒人重塑世界，你的未来究竟有多智能？

解放军报|连续奋战10小时！中部战区陆军某舟桥旅官兵紧急处置长江民堤险情

厉害了我的车|动力不输奥迪Q3，本田讴歌竟开始走亲民路线了，外观碾压宝马X3

人民网微博|“倒，倒，回轮！”小女孩指挥停车语气宛如老司机

在生活中最怕出现啥样的关系

包头：升级发力稀土产业

悦淘618大促升级：购物累计成长值手机好礼免费抽

安卓手机投屏到电脑：总结一下目前比较好的方法

上游新闻新能源汽车停车免费政策落实了吗？免收费程序复不复杂？

一个朋友是超高度近视，医生说他子女极大几率也是高度近视，他这种情况以后领养孩子好还是自己生一个比较好