AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet( 二 )
【AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet】当WordNet提供一个名词后 , 根据它设定的语音层次结构 , ImageNet需要对该名词的父类节点同义词进行扩充 , 并以此作为搜索的关键词 。比如“ whippet”分类名词(父类节点为:“dog”)的搜索还会包括“ whippet dog”。
这类似于我们经常看到的“相关搜索” 。为了进一步扩展图像池 , 数据集创建者还会使用多种语言进行了搜索 。
但这里的重点是 , 对于每个检索到的图像已经确定了标签 , 如果该标签包含在数据集中 , 则将分配给该图像 。也就是说 , 标签仅由用于相应搜索查询的WordNet节点给出 。
而在这一过程中 , WordNet的语义结构会将非主要目标的图像纳入数据集中 , 出现上文提到标记偏差 。如论文中的数据显示 , 同一分类却出现了不同的物体目标 。(如图)
文章图片
文章图片
既然如此 , 那为什么WordNet名词还能够广泛应用于数据集创建过程中呢?
一方面是因为WorldNet可以完成大量数据的自动标记工作 。我们知道 , 所有数据集在使用前都要先完成标记任务 , 而一个优秀的数据集规模又是很大的 , 如果全部手动标记 , 难度非常高 , 而WorldNet却可以很好的解决这一问题 。
另一方面对于ImageNet而言 , WordNet获取的只是初始数据标签 , 其准确性还需要通过相关模型进行再次验证 。总体来讲 , ImageNet数据集的创建过程 , 分为自动图像收集(automated data collection)和众包过滤(crowd-sourced filtering)两个阶段 , 而众包过滤就是所谓的审核阶段 , 它分为以下5个步骤:
文章图片
文章图片
潜在标签(Candidate Labels):通过现有ImageNet图像标签与模型预测的前5个标签进行组合 , 获得每张图像的潜在标签 。
选择高频率标签(Selection Frequency):通过Mechanical Turk(MTurk)平台 , 将潜在标签与注释内容对比 , 经过反复过滤循环后 , 出现频率最高的为最佳标签(一般少于5个) 。
CLASSIFY任务:给获得的少量多标签(Multiple labels)重新定义一组新的注释内容 , 根据注释信息为不同对象赋予标签 , 并确定一个主要对象的标签 , 这个过程称为CLASSIFY 。
对象注释(Object Annotation):汇总以上训练后 , 获得更为细粒度的图像注释;
与原始ImageNet标签相比 , 经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容 , 但研究者发现 , 这些注释内容可能并没有达到期待的效果 , 如下图 , CONTAINS任务会选择多个标签对图像有效 , 而对于70%的图像而言 , 注释选择的标签频率至少是ImageNet的原始标签的一半 。
文章图片
文章图片
而且下图表明 , 尽管只感知到单个对象 , 它们也经常会选择多达10个类别标签 。因此 ,
对于单一目标的图像 , ImageNet验证过程也无法得到准确的标签 。
文章图片
文章图片
因此 , 可以说图像标签在很大程度上依然取决于自动检索(WorldNet)过程 , 同时众包过滤的审查过程还有很大的提升空间 。
对于未来如何优化数据集的创建任务 , 研究人员在论文中表明 , 我们认为开发注释流程 , 尤其是审查阶段以更好地捕获基本事实 , 同时保持可扩展性是未来研究的重要途径 。”
推荐阅读
- 青年|汕头华侨试验区探索以人工智能、5G赋能产业转型升级
- 行业互联网,AI人工智能|城市教育大脑以“ AI+ 大数据”为核心 , 引领教育变革
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 人工智能|哈工智能布局“AI+ROBOT”生态圈
- 人工智能|马斯克宣布,脑机接口公司将在下月重磅更新,赛博格将成为现实?
- 人工智能|敏捷开发框架的开发运用之智能办公管理系统的开发
- 人工智能|人工智能上车就是聊天唱歌?TA还能给你有温度有情感的陪伴
- 行业互联网,云计算|赛伯乐携手华为(重庆)人工智能创新中心聚焦AI前沿,助力企业数字化转型
- 华为手机,AI人工智能|今天才知道,华为手机右上角还能这样使用,几千块钱果真没白花
- AI人工智能|OpenAI新模型曝光:给它半张图片,能够猜测补全