|清华构建新一代数据集NICO,定义图像分类新标准( 四 )


3、如果是检测任务 , 背景的影响还有那么重要吗?
对于检测任务 , 图像的背景对模型性能的影响较小;但是NICO的上下文不仅包括背景 , 还包括主体对象的属性 , 比如色彩、动作等 , 其带来的分布差异也会影响模型 。
4、数据集具体怎么收集构建的?
参照几个公认的图像数据集 , 我们确定了动物和交通工具两个超类 , 并选择了共19个常见的类别 , 如猫、火车等;对于每个类别 , 我们先基于搜索引擎(YFCC100m)划定了频率最高的联想词的范围 , 然后把同时和多个类别相关的词作为上下文;确定了(主体对象 , 上下文)的组合后 , 我们从搜索引擎上收集图像 , 多次检测完成过滤去噪的工作 。
5、估计NICO数据集大概多大规模才能有效解决识别问题?
目前NICO的规模已经可以支持从头训练(不带预训练)一个深度网络模型(如 ResNet18) , 而且会不断扩大 , 足以支持对有效解决识别问题的算法的研究 。
6、动物类的数据集中 , 为什么要收集吃、躺、颜色等非背景属性 , 有什么考虑?
选择NICO的上下文的时候 , 我们特别注意收集搜索引擎上与主体对象出现频率最高的联想词 , 这样可以保证每个(主体对象 , 上下文)都能收集到足够多的数据样本 , 保持数据集的规模 , 适应不同的实验设定 。
7、有些不同标签的图像场景存在重叠 , 比如狗吃饭的时候也可能在家 , 这种重叠有什么影响?
我们特意保证不同主体的上下文之间有所交叉 , 这样可以更好地适应不同的实验设定 , 让研究人员更灵活方便地设计实验 , 详情请见NICO支持的典型场景部分 。
8、后续NICO数据集还会有什么样的计划?
后续NICO会进一步增加数据集的规模 , 包括类别、上下文的种类、数据量 , 提高图像质量、进一步去噪过滤 , 并尝试细化上下文或者提供更多的图像标注 。
三、目前利用NICO数据集做了哪些任务 , 有没有一套完整的流程 , 包括定义明确的指标、实际运行、结果 。
请参见我们提供的补充材料 , 我们明确了几个NICO支持的经典的Non-I.I.D.场景 , 评价Non-I.I.D.程度的指标 , 以及指标下如何调节不同场景的Non-I.I.D.程度 。
我们还在一些场景里 , 基于一个类似AlexNet的CNN结构 , 进行了图像分类问题的实验研究 。 实验结果说明 , Non-I.I.D.对一般CNN结构的泛化能力的影响很大 , 说明传统CNN并不完全符合人类的智能认知 。 一个简单的causal模块(global balancing,CNBB)可以提升泛化能力 。
比例偏差:10个动物类别的分类准确率
成分偏差:9个交通工具类别的分类准确率
成分偏差+比例偏差:9个交通工具类别的分类准确率
四、新一代数据集的构建模式
ImageNet数据集是李飞飞花钱请人标注的 , Spider数据集是耶鲁大学在Text-to-Sql上很有名的一个数据集, 但是对专业知识要求很高 。
1、如果构建新一代数据集碰到类似问题 , 该怎么解决成本和专业度问题?
可以考虑把一整个大数据集拆分成有重叠度的多个小数据集 , 借助社区的开源力量或者众包的方式 , 标注和构建数据集 。
2、是花钱找人构建还是靠社区的开源力量?
借助社区的开源力量 。


推荐阅读