|清华构建新一代数据集NICO，定义图像分类新标准( 三 )

4、对抗偏差：通过精心组合训练集和测试集的主体对象/上下文，我们可以专门干扰模型对某个指定类别（正类）的预测。如果一个上下文在训练环境里仅和正类组合出现，而测试环境里仅和负类组合出现，我们称它是混淆因素，因为这个上下文会产生和正类的虚假强相关性，误导模型分类。显然，这样的混淆上下文越多，正类上的数据分布差异也就越大。

本文插图

虽然NI的区间变化很大，利用NICO就能很容易地创建这些经典的Non-I.I.D.场景，然后进行多样的科学研究。假设测试环境的信息已知，你可以做迁移学习、域适应性学习等研究；如果测试环境的信息不知，也可以进行稳定机器学习等方面的研究。

本文插图

目前为止， NICO以树状结构组织了2个超类（交通工具类和动物类）、19个类（鸟、…、火车）、以及每个类别下的9或10种上下文，共累积了188种（主体对象，上下文）组合，收集了约25000张图像，其规模也正不断扩大。对于热火朝天的人工智能而言， Non-I.I.D.下机器学习的稳定性已成为新的战场。靶（数）子（据）？NICO提供了一个很好的选择。

本文插图

更多关于NICO的细节请参见NICO的官方网站：http://nico.thumedialab.com, 或者相关的论文《Towards Non-IID Image Classification: A Dataset and Baseline》。
2 问答专访
一、新一代数据集应该是怎样的标准？
1、ImageNet开启了数据集的黄金时代。在ImageNet之后的各种数据集通常都会在哪些方面做到差别化？
差异化体现在数据集的建立初衷、目标问题、适用场景；以及样本提供的不同信息，比如标签、上下文等。
2、新一代数据集是任务通用的吗还是分任务进行分门别类构建？
一般会先以某些任务为目标构建起来；然后随着数据集的发展丰富，以及研究人员的灵活使用，逐渐通用。
3、新一代数据集是考虑加入因果关系吗？该怎么加？
数据集本身是不考虑因果关系的，但可以通过构造有数据分布偏差的训练和测试集，支持因果的研究，比如NICO可以在训练环境和测试环境组合不同的（主体对象，上下文）单元。
4、如果是检测任务，背景的影响还有那么重要吗？
对于检测任务，图像的背景对模型性能的影响较小；但是NICO的上下文不仅包括背景，还包括主体对象的属性，比如色彩、动作等，其带来的分布差异也会影响模型。
二、针对NICO数据集本身的问题
1、NICO数据集建立的初衷是什么？相比传统数据集有什么优势？
NICO数据集建立的初衷是吸引更多机器学习的研究者关注智能认知的本质机理。这样的机理将更接近人类智慧的习惯（比如因果），因此具备跨环境的稳定性和鲁棒性。为了支持以上研究，区别于传统数据集， NICO的图像样本除了主体类别标签，还有唯一的上下文信息描述主体的属性或者背景，通过在训练环境和测试环境中以不同比例组合不同的（主体对象，上下文）单元，可以灵活方便地构造数据环境模拟不同的Non-I.I.D.场景（见补充材料），支持对智能认知的本质机理的研究。
2、NICO数据集只适用于CV中的识别分类任务吗？
识别分类任务是当前NICO中设立的标准任务，但NICO不限于识别分类任务，研究人员可以利用上下文信息自行设计更多有意思的任务；另外，我们后续对NICO的优化和补充可能会细化上下文或者提供更多的图像标注，进而孵化出更多的任务。

|清华构建新一代数据集NICO，定义图像分类新标准( 三 )

推荐阅读

清.康熙御制黄地珐琅彩荷花莲瓣碗康熙御制

国际|比尔·盖茨表示美国新冠检测存在“令人震惊”的问题

[欢乐Tree]装备新增“进阶”，玩家将会何去何从？，梦幻手游：新玩法来袭

孕妇梦见两条蟒蛇是什么意思女人梦见两条蟒蛇是什么意思

「爱生活爱快乐爱自己」人工智能AI里程碑：计算机图形学

鲸落是什么？鲸落是什么意思

白芦笋和绿芦笋的区别

爱心怎么折100元钱爱心怎么折

股票行情|紫元元(08223)中期股东应占溢利同比减少29.37%至523.8万元

网易娱乐|京阿尼纵火案一周年追悼式举行遇难者家属出席

明月草能降血糖吗？

谷雨前后如何钓鱼谷雨前后如何钓鱼视频

星了个星座|跟这几个星座谈恋爱非常有趣，从来不会让人感到无聊，原创

广西新增境外输入无症状感染者2例

上海市宝山区人民政府网站|宝山中心城区两块绿地改造完成

胡金秋|32分大胜！CBA最强全华班终结两连败，超级鱼腩14战13败，太惨了

煮汤圆，三个技巧掌握好怎么煮汤圆

特点|A股揭示区域经济特点为高考生选择“第二故乡”提供参考

成小羽别怪我“凉薄如蛇”，是你们做得太绝，妈

沙金和黄金的区别是什么？