算法|AI存偏见歧视?算法让用户喜好趋同?科学家给出证据

AI存在偏见和歧视 , 算法让用户喜好趋同?科学家给出了证据
或许你已经注意到了 , 当你在电影评分网站给刚看完的电影评完分后 , 网站后续给你推荐的影片风格会与你看完的电影类似 。 举个更常见的例子 , 当你在购物网站搜索过某样物品后 , 第二天推荐页面上显示的都是类似款 。
人工智能可以帮助商家获得客户喜好 , 但同时也在逐渐根据用户的反馈 , 形成喜好偏见 , 让用户的需求同化 。 不仅如此 , 在人脸识别领域 , 算法自带的歧视和偏见导致的问题 , 已经引发了诸多争议 。
近日 , 来自多所大学学者的研究结果为上述的偏见和歧视提供了证据 。 他们的研究论文目前已在预印本网站Arxiv上发布 。
算法推荐系统会放大偏见 , 并让用户喜好趋同
推荐系统的本质是一种基于产品内容或用户行为的信息过滤 。 如今 , 我们用的很多应用程序和网站都嵌有算法推荐系统 。 假如你在某视频网站给一部电影打了高分 , 那么系统就会为你推荐更多同类型的电影 。 如果你给系统推荐的电影也打了分 , 系统就会将你的反馈行为添加到系统中 , 这就是一种反馈循环 。
但是推荐算法会受到流行性偏见(popularitybias)的影响 。 流行性偏见是指 , 一些流行的项目会被经常推荐 , 而其他项目会被忽略 。 在上面的例子中 , 一些电影被更多的人喜爱 , 获得了更高的评分 , 就属于流行的项目 , 或者可以叫做热门项目 , 这些项目会被更多推荐给用户 , 这就是流行性偏见 。
流行性偏见的产生一部分源于训练数据本身存在不同的流行度 , 另一部分原因来自推荐算法 。 随着时间的推移 , 这种流行性偏见将会被加强 。 因为如果用户在反馈循环中不断为热门电影打高分 , 这些电影就变得更热门 , 被推荐的几率也就更大 。
为了研究反馈循环对推荐系统放大偏见和其他方面的影响 , 来自埃因霍温科技大学、德保罗大学和科罗拉多大学博尔德分校的研究人员在一个电影数据集上使用三种推荐算法进行了仿真 , 模拟推荐系统的交互过程 。
作为研究数据的MovieLens1M数据集包含了6040个用户对3706部电影给出的1000209个评分 , 分数范围在1-5之间 。 研究人员使用的三种推荐算法分别是:基于用户的协同过滤(UserKNN)、贝叶斯个性化排序(BPR)和一种向所有人推荐最流行产品的算法MostPopular 。
通过使用这些数据和算法进行迭代——系统不断为用户生成推荐列表 , 用户又不断对推荐列表中的项目进行打分 , 研究人员发现 , 随着时间的推移 , 三种算法下的数据平均流行度都有所上升 , 但总体多样性呈现下降 , 这也就证明了推荐系统在反馈循环后的偏见被放大 。
流行性偏见的放大还改变了系统对用户兴趣的判断 。 在所有的推荐算法中 , 用户的偏好与其初始偏好之间的偏差随着时间的推移而增加 。 也就是说 , 这将导致推荐系统为用户做出的推荐越来越偏离用户的真实喜好 , 系统推荐给你的电影将不再符合你的口味 。
除此之外 , 由于推荐系统的偏见被放大 , 用户几乎只能接触到流行度高的项目 , 只能看到那些被更多人打了高分的热门电影 。 于是 , 在推荐系统中他们的偏好都会向一个共同的范围集中 , 这就表现为用户偏好的同质化 。 而反馈循环造成的偏见对少数群体用户的影响更大 。
“解决算法偏见的方法变得至关重要 。 因为如果处理不当 , 随着时间的推移 , 推荐系统中一个很小的偏差也可能会被极度放大 。 ”研究人员在论文结尾处写道 。
人脸识别用于训练的数据存在巨大偏差
针对人脸识别算法带来的偏见越来越受到关注 。 例如 , 能将模糊照片清晰化的PULSE算法将美国前总统奥巴马的模糊照片“还原”出了一张白人面孔 , 在全美BLM运动(BlackLives Matter , 黑人的命也是命)如火如荼的背景下 , 就引发了巨大的争议 。


推荐阅读