AI人工智能|惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet( 三 ) AI人工智能

涉嫌种族歧视，大规模数据集争议不断
作为人工智能技术的基础，数据集在诸多研究领域都有着广泛的使用场景，尤其是在计算机视觉领域。近些年，因数据集的使用引发的隐私泄露、种族歧视等问题接连不断，导致人工智能技术的发展备受争议。
除了近期麻省理工学院因涉嫌种族歧视而删除了包含8000张图像的Tiny Image数据外，此前，一款图像修复算法PULSE ，在学术圈同样引起轩然大波。有网友发现， PULSE在修复马赛克图像时，将奥巴马变成了高分辨率的白人，这一事件引起了黑人网友的不满。
对此，图灵奖之父Lecun发表twitter称，训练结果存在种族偏见，是因为数据集本身带有偏见，工程师在使用过程中应该加注意这一点。
今年因数据集而引发种族歧视事件颇多，而解决这些数据集争议，无非是从数据收集和标记阶段进行改进。研究人员称，对于大型数据集，理想的方法是按指定目标在全世界范围内收集图像，并让专家按确切类别进行手动筛选和标记。这里需要注意的是，非专家的人工标记也可能出现错误。
但从当前来看，这种方法非常不切实际。事实上，诸如ImageNet此类数据集均是从互联网搜索引擎抓取的图像，质量参差不齐，而图像审查不够严谨。同时大量数据的专家手动标记也很难实现。不过，如本次研究所称，可以通过技术进一步改善图像自动审查的过程来提高数据集的质量。
此外，目前学术界已经越来越关注数据集相关缺陷问题，在本月初计算机语言协会（ACL）还重点讨论了这一问题。

AI人工智能|惨遭下架后，MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet( 三 )

推荐阅读

潮男穿搭时尚社|白色V领针织衣搭配蓝色牛仔裤，简单大方，清新减龄

200年内地球会毁灭吗,霍金关于地球200年后的预言,是真的吗--

血糖高能吃豆腐吗？

「社区」为居民送菜、为2500多楼栋单元消杀，机场集团200余志愿

魔兽世界|魔兽世界：28分钟单刷泰兰德，被无情“嘲讽”，铁炉堡也“陷落”

其他赛区|众解说预测LCK夏决：普遍看好DWG，仅两人认为DRX能险胜

你见过的喜欢沉溺在自己的世界的文艺青年，后来咋了

仙女|仙气飘飘的白色连衣裙，上身宛如仙女一般美丽

向风而行|《向风而行》：托稳行业剧底线，拔高情感剧上限

隐秘而伟大|足协不该实施限薪令，国足球员拿几百上千万年薪，是应该的！

大一绩点比较低，大二大三努力，出国有没有希望申请好学校

国家|欧洲的美女“巨人国”：口味很独特，女游客最好别带男友来！

宋仲基|宋仲基和英国女友凯蒂·刘易斯·桑德斯的爱情故事

渝芃时尚达人|12500包包好奢侈，宋佳衣品又飒又美！衬衫配工装裤简约帅气

详细解析Linux /etc/passwd文件

儿童床垫有哪些类别？孩子睡什么床垫好

新科技疯汇5G交替之际，学生机怎么选，4G

看看腊月二十四有哪些传统习俗腊月二十四的习俗

吃药能喝菊花茶吗

#搭配#韩国最萌身高差情侣，不用情侣款却穿出亲密感，每一张都像撒狗粮