AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet( 三 )
涉嫌种族歧视 , 大规模数据集争议不断
作为人工智能技术的基础 , 数据集在诸多研究领域都有着广泛的使用场景 , 尤其是在计算机视觉领域 。近些年 , 因数据集的使用引发的隐私泄露、种族歧视等问题接连不断 , 导致人工智能技术的发展备受争议 。
除了近期麻省理工学院因涉嫌种族歧视而删除了包含8000张图像的Tiny Image数据外 , 此前 , 一款图像修复算法PULSE , 在学术圈同样引起轩然大波 。有网友发现 , PULSE在修复马赛克图像时 , 将奥巴马变成了高分辨率的白人 , 这一事件引起了黑人网友的不满 。
对此 , 图灵奖之父Lecun发表twitter称 , 训练结果存在种族偏见 , 是因为数据集本身带有偏见 , 工程师在使用过程中应该加注意这一点 。
今年因数据集而引发种族歧视事件颇多 , 而解决这些数据集争议 , 无非是从数据收集和标记阶段进行改进 。研究人员称 , 对于大型数据集 , 理想的方法是按指定目标在全世界范围内收集图像 , 并让专家按确切类别进行手动筛选和标记 。这里需要注意的是 , 非专家的人工标记也可能出现错误 。
但从当前来看 , 这种方法非常不切实际 。事实上 , 诸如ImageNet此类数据集均是从互联网搜索引擎抓取的图像 , 质量参差不齐 , 而图像审查不够严谨 。同时大量数据的专家手动标记也很难实现 。不过 , 如本次研究所称 , 可以通过技术进一步改善图像自动审查的过程来提高数据集的质量 。
此外 , 目前学术界已经越来越关注数据集相关缺陷问题 , 在本月初计算机语言协会(ACL)还重点讨论了这一问题 。
推荐阅读
- 青年|汕头华侨试验区探索以人工智能、5G赋能产业转型升级
- 行业互联网,AI人工智能|城市教育大脑以“ AI+ 大数据”为核心 , 引领教育变革
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 人工智能|哈工智能布局“AI+ROBOT”生态圈
- 人工智能|马斯克宣布,脑机接口公司将在下月重磅更新,赛博格将成为现实?
- 人工智能|敏捷开发框架的开发运用之智能办公管理系统的开发
- 人工智能|人工智能上车就是聊天唱歌?TA还能给你有温度有情感的陪伴
- 行业互联网,云计算|赛伯乐携手华为(重庆)人工智能创新中心聚焦AI前沿,助力企业数字化转型
- 华为手机,AI人工智能|今天才知道,华为手机右上角还能这样使用,几千块钱果真没白花
- AI人工智能|OpenAI新模型曝光:给它半张图片,能够猜测补全