图灵联邦动了数据科学家的奶酪?AutoML为何缺乏应用( 二 )


出现这种错误有两个原因:
首先 , 该算法使用上一年的个人总医疗费用来确定护理需求 。
由于黑人公民往往比白人公民更穷 , 他们在医疗保健上的花费更少 , 不管他们实际上需要多少医疗保健 。
其次 , 用于训练算法的数据集包含的白人数据是黑人数据的7倍 。
同样 , 路透社(Reuters)在2018年指出 , 亚马逊多年来在招聘过程中使用的算法不公平地将女性求职者排除在外 。
事实上 , 招聘算法是通过分析过去十年提交给亚马逊的简历模式来训练的 。 由于绝大多数申请者是男性 , 该算法了解到男性候选人更有可能被选中 。
该算法还降低了“包含‘女子’(如‘女子象棋俱乐部队长’)字样的简历得分 , 并降低了两所女子学院毕业生的得分 。 ”
这只是偏见可能潜移默化地影响商业决策的两个例子 。
考虑到基于人工智能的程序被广泛用于为此类决策提供信息——其中一些会影响数亿人——企业必须意识到偏见 , 并采取一切可能的措施消除或减轻这些偏见 。
最佳数据科学模型:人类+人工智能
尽管如此 , 尽管存在未被发现的偏差带来的风险 , 我们相信使用AutoML开发模型的便捷性和时效性使其成为每个数据科学家和数据科学部门都应具备的工具
它是一种低成本、高潜力的工具 , 至少为人工方法提供了可靠的性能基线 。
在最好的情况下 , AutoML将比人类更快地完成这一工作 , 并且还能生成更好的模型
数据科学家需要确保 , 他们用来设计模型的假设和用来训练模型的数据不会导致意外的结果 。
缺乏AutoML应用的最终原因可能是一些数据科学家担心AutoML将很快使他们变得多余 。
这与上世纪80年代初微软推出Excel时会计们的担忧类似 。
Excel并没有像他们担心的那样让会计师们失业 , 而是让他们的工作变得更容易 , 使管理财务文件的许多繁琐任务自动化 。
同样 , 我们相信AutoML将使数据科学家更有效率 。
使用自动化工具的数据科学家可以将更少的时间花在这些任务上 , 而将更多的时间花在更高价值的工作上 , 比如应用领域和行业知识 , 而不是将时间花在迭代和调整模型上 。
考虑到数据科学家的匮乏和高成本 , 这种转移资源的能力应该受到商业领袖的欢迎 。
数据科学家可以放心 , 因为他们不仅可以继续在AI发展中发挥核心作用 , 而且必须继续发挥这样的作用 。
如果公司想要避免自动化中的偏见带来的不可预见的后果 , 那就必须将人放在数据建模的中心地位 。
这是该文章的第一部分 , 第二部分我们将着眼于AutoML的优势和局限性 , 并强调人类在AI项目中扮演的关键角色 。


推荐阅读