AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet( 二 )


【AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet】当WordNet提供一个名词后 , 根据它设定的语音层次结构 , ImageNet需要对该名词的父类节点同义词进行扩充 , 并以此作为搜索的关键词 。比如“ whippet”分类名词(父类节点为:“dog”)的搜索还会包括“ whippet dog”。
这类似于我们经常看到的“相关搜索” 。为了进一步扩展图像池 , 数据集创建者还会使用多种语言进行了搜索 。
但这里的重点是 , 对于每个检索到的图像已经确定了标签 , 如果该标签包含在数据集中 , 则将分配给该图像 。也就是说 , 标签仅由用于相应搜索查询的WordNet节点给出 。
而在这一过程中 , WordNet的语义结构会将非主要目标的图像纳入数据集中 , 出现上文提到标记偏差 。如论文中的数据显示 , 同一分类却出现了不同的物体目标 。(如图)
AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet
文章图片

文章图片

既然如此 , 那为什么WordNet名词还能够广泛应用于数据集创建过程中呢?
一方面是因为WorldNet可以完成大量数据的自动标记工作 。我们知道 , 所有数据集在使用前都要先完成标记任务 , 而一个优秀的数据集规模又是很大的 , 如果全部手动标记 , 难度非常高 , 而WorldNet却可以很好的解决这一问题 。
另一方面对于ImageNet而言 , WordNet获取的只是初始数据标签 , 其准确性还需要通过相关模型进行再次验证 。总体来讲 , ImageNet数据集的创建过程 , 分为自动图像收集(automated data collection)和众包过滤(crowd-sourced filtering)两个阶段 , 而众包过滤就是所谓的审核阶段 , 它分为以下5个步骤:
AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet
文章图片

文章图片

潜在标签(Candidate Labels):通过现有ImageNet图像标签与模型预测的前5个标签进行组合 , 获得每张图像的潜在标签 。
选择高频率标签(Selection Frequency):通过Mechanical Turk(MTurk)平台 , 将潜在标签与注释内容对比 , 经过反复过滤循环后 , 出现频率最高的为最佳标签(一般少于5个) 。
CLASSIFY任务:给获得的少量多标签(Multiple labels)重新定义一组新的注释内容 , 根据注释信息为不同对象赋予标签 , 并确定一个主要对象的标签 , 这个过程称为CLASSIFY 。
对象注释(Object Annotation):汇总以上训练后 , 获得更为细粒度的图像注释;
与原始ImageNet标签相比 , 经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容 , 但研究者发现 , 这些注释内容可能并没有达到期待的效果 , 如下图 , CONTAINS任务会选择多个标签对图像有效 , 而对于70%的图像而言 , 注释选择的标签频率至少是ImageNet的原始标签的一半 。
AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet
文章图片

文章图片

而且下图表明 , 尽管只感知到单个对象 , 它们也经常会选择多达10个类别标签 。因此 ,
对于单一目标的图像 , ImageNet验证过程也无法得到准确的标签 。
AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet
文章图片

文章图片

因此 , 可以说图像标签在很大程度上依然取决于自动检索(WorldNet)过程 , 同时众包过滤的审查过程还有很大的提升空间 。
对于未来如何优化数据集的创建任务 , 研究人员在论文中表明 , 我们认为开发注释流程 , 尤其是审查阶段以更好地捕获基本事实 , 同时保持可扩展性是未来研究的重要途径 。”


推荐阅读