AI人工智能|惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet( 二 ) AI人工智能

【AI人工智能|惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet】当WordNet提供一个名词后，根据它设定的语音层次结构， ImageNet需要对该名词的父类节点同义词进行扩充，并以此作为搜索的关键词。比如“ whippet”分类名词（父类节点为：“dog”）的搜索还会包括“ whippet dog”。
这类似于我们经常看到的“相关搜索” 。为了进一步扩展图像池，数据集创建者还会使用多种语言进行了搜索。
但这里的重点是，对于每个检索到的图像已经确定了标签，如果该标签包含在数据集中，则将分配给该图像。也就是说，标签仅由用于相应搜索查询的WordNet节点给出。
而在这一过程中， WordNet的语义结构会将非主要目标的图像纳入数据集中，出现上文提到标记偏差。如论文中的数据显示，同一分类却出现了不同的物体目标。（如图）

文章图片

文章图片

既然如此，那为什么WordNet名词还能够广泛应用于数据集创建过程中呢？
一方面是因为WorldNet可以完成大量数据的自动标记工作。我们知道，所有数据集在使用前都要先完成标记任务，而一个优秀的数据集规模又是很大的，如果全部手动标记，难度非常高，而WorldNet却可以很好的解决这一问题。
另一方面对于ImageNet而言， WordNet获取的只是初始数据标签，其准确性还需要通过相关模型进行再次验证。总体来讲， ImageNet数据集的创建过程，分为自动图像收集（automated data collection）和众包过滤（crowd-sourced filtering）两个阶段，而众包过滤就是所谓的审核阶段，它分为以下5个步骤：

文章图片

文章图片

潜在标签（Candidate Labels）：通过现有ImageNet图像标签与模型预测的前5个标签进行组合，获得每张图像的潜在标签。
选择高频率标签（Selection Frequency）：通过Mechanical Turk（MTurk）平台，将潜在标签与注释内容对比，经过反复过滤循环后，出现频率最高的为最佳标签（一般少于5个）。
CLASSIFY任务：给获得的少量多标签（Multiple labels）重新定义一组新的注释内容，根据注释信息为不同对象赋予标签，并确定一个主要对象的标签，这个过程称为CLASSIFY 。
对象注释（Object Annotation）：汇总以上训练后，获得更为细粒度的图像注释；
与原始ImageNet标签相比，经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容，但研究者发现，这些注释内容可能并没有达到期待的效果，如下图， CONTAINS任务会选择多个标签对图像有效，而对于70%的图像而言，注释选择的标签频率至少是ImageNet的原始标签的一半。

文章图片

文章图片

而且下图表明，尽管只感知到单个对象，它们也经常会选择多达10个类别标签。因此，
对于单一目标的图像， ImageNet验证过程也无法得到准确的标签。

文章图片

文章图片

因此，可以说图像标签在很大程度上依然取决于自动检索（WorldNet）过程，同时众包过滤的审查过程还有很大的提升空间。
对于未来如何优化数据集的创建任务，研究人员在论文中表明，我们认为开发注释流程，尤其是审查阶段以更好地捕获基本事实，同时保持可扩展性是未来研究的重要途径。”

AI人工智能|惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet( 二 )

推荐阅读

中国科学院|宁波材料所在无机钙钛矿电池研究中获进展

雪纺裙|真不敢相信谭松韵已经30多岁了，面对“真实镜头”，也很少女

怎样界定普通朋友、好朋友和非常好的朋友

紧身|路人街拍：好看的紧身牛仔裤小姐姐，尽显女性的曼妙身姿！

念寒娱评|有可能遇到真爱，也有可能会跟王宝强复婚，马蓉突然连发三个爱心

有人有坐邮轮出行的经验嘛这个貌似逼格太高，周围的朋友都没有去过，想给女朋友一个惊喜，求推荐线路

全民车市|直接躺在地上，女司机做法让人气愤，小区保安阻拦女司机

穿搭|新发现这轻奢风女装穿搭，秀场款的设计感，小众不失优雅

掘金|输掉一场不用慌！掘金还手握三优势，应对得当翻盘湖人不是没机会

春晚上的变形机器人，才是他圆梦路上的第一站

海外网|《日本之耻》当事人起诉网络诽谤者：在我们这一代终结网络暴力

21Tech|12来了！但苹果却尾盘跳水，原因或许是这个，首款5G苹果机iPhone

缺血吃什么补血好吃什么补血最好最快

九个月@九个月宝宝睡觉时间

春天在田野里,田野里的什么?在田野里的春天是什么样子的

『空气』黑龙江省解读“这波重污染咋来的？” 下周二或迎好空气

荣耀30与华为P40怎么选？你得看懂看华为与荣耀的品牌差异

杭州|控制风险考虑，多家银行暂停账户铂金、钯金开仓交易

电音和autotune的区别

3DM游戏网|尾田也要滑铁卢？正版3D动作手游《航海王热血航线》发布最难入团测试