AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet( 三 )


涉嫌种族歧视 , 大规模数据集争议不断
作为人工智能技术的基础 , 数据集在诸多研究领域都有着广泛的使用场景 , 尤其是在计算机视觉领域 。近些年 , 因数据集的使用引发的隐私泄露、种族歧视等问题接连不断 , 导致人工智能技术的发展备受争议 。
除了近期麻省理工学院因涉嫌种族歧视而删除了包含8000张图像的Tiny Image数据外 , 此前 , 一款图像修复算法PULSE , 在学术圈同样引起轩然大波 。有网友发现 , PULSE在修复马赛克图像时 , 将奥巴马变成了高分辨率的白人 , 这一事件引起了黑人网友的不满 。
对此 , 图灵奖之父Lecun发表twitter称 , 训练结果存在种族偏见 , 是因为数据集本身带有偏见 , 工程师在使用过程中应该加注意这一点 。
今年因数据集而引发种族歧视事件颇多 , 而解决这些数据集争议 , 无非是从数据收集和标记阶段进行改进 。研究人员称 , 对于大型数据集 , 理想的方法是按指定目标在全世界范围内收集图像 , 并让专家按确切类别进行手动筛选和标记 。这里需要注意的是 , 非专家的人工标记也可能出现错误 。
但从当前来看 , 这种方法非常不切实际 。事实上 , 诸如ImageNet此类数据集均是从互联网搜索引擎抓取的图像 , 质量参差不齐 , 而图像审查不够严谨 。同时大量数据的专家手动标记也很难实现 。不过 , 如本次研究所称 , 可以通过技术进一步改善图像自动审查的过程来提高数据集的质量 。
此外 , 目前学术界已经越来越关注数据集相关缺陷问题 , 在本月初计算机语言协会(ACL)还重点讨论了这一问题 。


推荐阅读