MIT下架偏见数据集,Bengio兄弟建议多引少数群体论文:BLM运动持续( 三 )


MIT下架偏见数据集,Bengio兄弟建议多引少数群体论文:BLM运动持续
本文插图
Tiny Images 数据集中带有 Nigger 标签的图像 。
这些图像数据是基于 WordNet 分类词库从搜索引擎自动收集的 。 WordNet 具有强大的关联性 , 会根据单词的意义将不同的词组成相应的集合 , 因而带有一定的偏向性 。 那么在搜索引擎上搜索图像时 , 获得的图片也相应地具有强烈的偏见性 。
此外 , 数据集的规模不仅非常大 , 而且这些图像的分辨率只有 32x32 像素 , 也从未存储过原始的高分辨率版本 , 以至于人们难以用肉眼识别它们的内容 。 即使人工检查也无法保证能够完全清除这些有冒犯性的图像 。
这些因素都使得 MIT 不得不删除了 Tiny Images 数据集 , 目前该数据集已经下线并且永远不会再上线 。
MIT 也对删除 Tiny Images 数据集给出了官方声明:
MIT下架偏见数据集,Bengio兄弟建议多引少数群体论文:BLM运动持续
本文插图
在声明中 , MIT 表示已经注意到 Tiny Images 数据集包含一些侮辱性词汇以及冒犯性的图像 , 并高度关注这件事 , 同时向受到影响的人道歉 。 因此决定正式撤销 Tiny Images 数据集 。 此外 , MIT 还要求社区以后都不再使用它 , 并且删除已下载的该数据集的任何副本 。
最后 , MIT 表示:「含有偏见和冒犯性的图像以及带有侮辱性的词汇 , 会迫使社区疏远重要的组成部分——人才 , 而人才正是我们想方设法吸纳的 。 此外 , 该数据集还会导致使用它训练的 AI 系统也包含有害偏见 , 此类有偏见的图像也有损计算机视觉社区努力构建的包容文化 , 这些都与我们努力维护的价值观背道而驰 。 」
参考链接:
https://www.theregister.com/2020/07/01/mit_dataset_removed/
https://www.reddit.com/r/MachineLearning/comments/hjlsy8/d_samy_bengios_post/
【MIT下架偏见数据集,Bengio兄弟建议多引少数群体论文:BLM运动持续】https://groups.csail.mit.edu/vision/TinyImages/


推荐阅读