机器学习模型的黑盒公平性测试


机器学习模型的黑盒公平性测试

文章插图
 
论文摘要任何给定的人工智能系统都不能被接受,除非它的可信度被证明 。值得信赖的人工智能系统的一个重要特征是没有算法偏见 。“个体歧视”存在于给定个体与另一个体仅在“受保护属性”(如年龄、性别、种族等)上不同,但是它们会从给定的机器学习(ML)模型中得到不同的决策结果 。目前的工作是解决给定 ML 模型中存在的个体歧视问题 。在黑盒环境下,个体歧视的检测是测试密集型的,这对于非平凡的系统是不可行的 。我们提出了一种自动生成测试用例进行输入的方法,用于检测个体歧视的任务 。我们的方法结合了两种成熟的技术——符号执行和局部可解释性,以实现有效的测试案例生成 。我们实证表明,与所研究的最著名的基准系统相比,我们生成测试用例的方法是非常有效的 。
论文介绍模型的偏见 。这十年随着人工智能(AI)的复苏,AI 模型已经开始在很多系统中承担关键性的决策--从招聘决策、审批贷款到设计无人驾驶汽车 。因此,为了确保人工智能系统被广泛接受,人工智能模型的可靠性是最重要的 。可靠的 AI 系统的一个重要方面是确保其决策的公平性 。偏见可能以多种方式存在于决策系统中 。它可以以群体歧视的形式存在,即两个不同的群体(例如,基于性别/种族等“受保护的属性”)获得不同的决策 。需要注意的是,歧视感知系统需要经过训练,以避免对敏感的特征进行歧视,这些特征被称为“受保护的属性” 。受保护的属性是特定于应用的 。年龄、性别、种族等特征是一些经常出现的例子,许多应用实际都将其作为受保护属性 。
个体歧视 。在本文中,我们讨论了机器学习模型中检测个体歧视的问题 。我们在本文中使用的个体公平性/偏见的定义是一种简化的、非概率的反事实公平性,这也符合 Dwork 的个体公平性框架 。如本工作所述,如果对于任何两个仅在受保护属性上有差异的有效输入,总是被分配到相同的类别,那么系统就被称为是公平的(如果对于某对有效输入,产生了不同的分类,那么就被称为存在偏差) 。这样的偏差情况在之前的模型中已经被注意到了,并对模型生成者造成了不利的后果 。因此,检测这类情况是最重要的 。需要注意的是,从训练数据中删除受保护的属性并不能消除这种偏见,因为由于受保护属性和非受保护属性之间可能存在的共同关系,个体歧视可能仍然存在,就像成人人口普查收入数据中的种族(受保护)和邮编(非受保护)一样 。因此,我们面临的挑战是,如何评估和找到非保护和保护属性的所有值,让模型显示出这种个体歧视行为 。
现有技术及其缺点 。衡量个体歧视需要进行详尽的测试,这对于一个非平凡的系统来说是不可行的 。现有的技术能生成一个测试套件来确定模型中是否存在个体歧视以及个体歧视的程度 。THEMIS 从域中选择所有属性的随机值,以确定系统是否在个体之间进行歧视 。AEQUITAS 分两个阶段生成测试用例 。第一阶段通过对输入空间进行随机采样来生成测试用例 。第二阶段开始时,将第一阶段产生的每个判别输入作为输入,并对其进行扰动,以产生更多的测试用例 。这两种技术的目的都是为了产生更多的测试输入 。尽管上述这两种技术适用于任何黑盒系统,但我们的实验表明,它们会遗漏许多这样的非保护属性值组合,而这些组合可能存在单独的判别 。我们还希望覆盖模型更多样化的路径,以生成更多的测试输入 。
我们的方法 。我们的目的是对特征空间进行系统化搜索,以覆盖更多的空间,而不需要太多的冗余 。存在基于符号评估的技术,通过系统地探索程序中的不同执行路径来自动生成测试输入 。这种方法避免了生成多个输入,因为这些输入倾向于探索相同的程序路径 。这类技术本质上是白盒技术,利用约束求解器的能力来自动创建测试输入 。符号执行从一个随机输入开始,分析路径生成一组路径约束条件(即输入属性的条件),并迭代地切换(或否定)路径中的约束条件,生成一组新的路径约束条件 。然后,它使用约束求解器对所得的路径约束进行求解,以生成一个新的输入,这个输入可能会把控制带到新的路径上 。我们的想法是使用这种动态符号执行来生成测试输入,这有可能导致发现 ML 模型中的个体歧视 。然而,现有的这种技术已经被用来生成可解释程序的程序输入 。我们的主要挑战是如何将这种技术应用于不可解释的机器学习模型 。


推荐阅读