新浪科技 探索

人工智能与大数据会纠正我们的偏见,还是会更糟糕?

新浪科技

关注

导语:美国科学杂志nautil.us《鹦鹉螺》作者Aaron M. Bornstein近日发表了讨论人工智能与大数据能否纠正人类种族歧视的深度报道。尽管人工智能设计者和数据工程师可能没有类似种族歧视的偏见,但大数据从业者都明白,用于提供定制服务的大型数据集不可避免地包含丰富详细的信息,包括具有受保护属性的肤色、性别、性取向和政治取向等。算法在这些数据的基础上做出的决定可以隐蔽地打开这些属性,既令人难以察觉,又是不道德的。

以下为文章全文:

我们对大数据的使用是会纠正我们的偏见,还是会让情况更加糟糕?

“我们不知道顾客是什么样的,”亚马逊公司负责全球通讯公关的副总裁克雷格·伯曼(Craig Berman)在接受彭博新闻社采访时说道。伯曼是在回应有人对亚马逊的当日送达服务歧视有色人种的指控。从字面上看,伯曼的辩护是诚实的:亚马逊在选择当日送达的区域时是根据成本和收益因素,例如家庭收入和送达的可及性。但是,这些因素是通过邮政编码汇总起来的,因此会受到其他塑造了——并将继续塑造——文化地理学的因素的影响。查看当日送达的服务地图,很难让人不注意到其与肤色的对应关系。

这样的地图让人想起了罗伯特·摩斯(Robert Moses),这位城市规划大师在数十年时间里塑造了现代纽约城及周边郊区大部分的基础设施。然而,他备受争议的一点是不希望穷人,尤其是穷苦的有色人群,使用他在长岛上建造的新公园和海滩。尽管摩斯曾努力促成了禁止公共汽车在高速公路上行驶的法律,但他知道,这条法律迟早有一天会被废除。因此,他建造了更加持久的东西:几十个高度很低,公共汽车无法通行的天桥,将歧视真正地具体化。这一决定,以及其他几十个类似的决定都影响深远而持久。几十年后,关于公共汽车的法律已经废除,但沿着高速公路排列的城镇依然像从前一样隔离着。“法律总是可以修改的,”摩斯说,“但一座桥建好以后,就很难拆掉了。”

今天,在受到原有结构影响的数据基础上,这样的隔离又重现了。尽管新基础设施的设计者可能没有类似的不良意图,但他们也不能自称对这些设施的影响毫不知情。大数据从业者都明白,亚马逊和其他公司用于提供定制服务的大型数据集不可避免地包含丰富详细的信息,包括具有受保护属性的肤色、性别、性取向和政治取向等。算法在这些数据的基础上做出的决定可以隐蔽地打开这些属性,既令人难以察觉,又是不道德的。

凯特·克劳福德在微软研究院从事算法偏见的研究,并且是“AI Now”计划的合作创立者。这项研究关注的是如今在使用人工智能系统时所面临的危险。她提出了一个算法公平性的基本问题,即算法可以在多大程度上理解它们所使用数据的社会和历史背景。“你可以让一个人类操作者去尝试考虑数据本身代表人类历史的方式,”克劳福德说,“但如何训练机器来做到这一点呢?”不能以这种方式理解背景的机器最多只能传递制度化的歧视,即所谓的“偏见入,偏见出”(bias in, bias out)。

纠正这些隐性歧视的努力不足,可能会让事情变得更糟。克劳福德的同事、康奈尔大学的索伦·巴洛卡斯观察到,终端用户会“不加批判地接受供应商的声明”,即算法中已经消除了偏见。在那些普遍存在偏见的应用场合,比如司法系统中,情况尤其如此。对于这些地方,号称更客观的机器具有非常大的吸引力。剥离算法中的偏见还要求认可某个关于公平的主观定义,同时不理会其他定义,但被选择的定义往往是最容易量化的,而不是最公平的。

然而,虽然有着种种缺陷,但找出并对抗数据和算法中的偏见也会带来一些机会——能以新的方式使偏见的轮廓呈现在我们面前。

COMPAS的预测偏见

COMPAS是美国各地法院使用的一款软件,可以根据被告人对137个调查问题的回答,评估他们重新犯罪的可能性。评估结果将被用于指导保释决定。

COMPAS的调查问卷并不涉及肤色、遗产甚至邮政编码,但确实提出了诸如被告人是否居住在一个“犯罪很多”的街区,以及他们是否难以找到“超过最低工资”的工作等问题。这些问题更适合向社会提出,而非针对个人。请注意问题中的偏见:答案与种族等受保护的属性有关,意味着算法可以学习有效地“发现”数据中的这些属性。然而,推出COMPAS的Northpointe公司宣称,他们已经对该软件进行了校准,使其对再次被捕的预测准确性与肤色无关。

2015年,ProPublica的记者开始利用佛罗里达州布劳沃德县一位COMPAS用户的公开记录来验证这一说法。他们发现,当COMPAS预测被告再次被捕的风险很高,并且之后确实再次被捕时,其预测确实在最直接意义上是无关肤色的。但是,当COMPAS预测不准确时(要么预测的再次被捕没有发生,要么没有做出实际再次被捕的预测),它通常会低估白人再犯的可能性,并高估黑人再犯的可能性。换句话说,它在一组统计数据中隐藏的偏见,在另一组统计数据中呈现了出来。

ProPublica在一篇文章中报道了这一发现,文章副标题是“全国各地都使用软件来预测未来的罪犯,而它对黑人存有偏见”。Northpointe公司对他们的评价提出了异议,并对文中的论点进行了再次统计分析,以作为回应。Northpointe公司将争论从错误率的差异转移到另一个事实,即风险分数反映了一个真实而普遍的情况:未来再次被捕的非裔美国人被告确实更多。该公司指出,这意味着非裔美国人作为一个人群具有较高的风险得分并不奇怪。

Northpointe公司的中心论点有一个本质性的谬误:因为在训练数据集中,被警察归类为非裔美国人的人会更频繁地再次被捕,所以他们宣称COMPAS有理由预测其他被警察归为非裔美国人的人——即使在不同城市、州和时间段——更有可能再次被捕。在数据中进行分类的结果又作用于分类本身,这让人不禁想起W·E·B·杜波依斯(W.E.B。 Dubois)在1923年所下的定义,“黑人就是在佐治亚州必须乘坐吉姆·克劳公交车的人”[吉姆·克劳(Jim Crow)原是19世纪初一个剧目中黑人角色的名字,后来成为“黑鬼”的贬义词,之后美国南方针对黑人的种族隔离法案被称为吉姆·克劳法,而吉姆·克劳的公交车指1960年代之前美国南方各州在公交车上实行的种族隔离]。

虽然这段插曲展示了算法决策带来的许多危险,但也引发了一系列学术研究,得到了一个令人惊讶的结论:为一个被告指定风险评分的做法需要在“公平”一词的两种不相容的定义之间进行权衡。而且,这种权衡是普遍的。“任何执行这一过程的系统都将面临这种挑战,”康奈尔大学的计算机科学教授乔恩·克莱因伯格说,“无论它是一个算法系统,还是人类决策者。”

克莱因伯格及其同事发表了一篇论文,证明Northpointe公司和ProPublica对公平的两种定义在数学上是不相容的。用术语来说,他们展示了预测性平价(无论黑人和白人被告是否有相同的风险评分总体准确率)和错误率平衡(无论两个人群是否以相同方式获得错误的风险评分)之间是相互排斥的。当任何两个人群之间的测量结果——在COMPAS中是再次被捕的概率——具有不同的基础比率时,如果应用相同的标准,就必然会对较高基础比率的人群产生偏见误差。“‘校准’正是导致这一问题的原因,”克莱因伯格说道。任何使用风险评分的系统——机器算法或人类机构——都是如此,无论是使用哪些因素来生成。

值得注意的是,这种不相容性此前从未出现过。它的发现指向了大数据时代最显著的好处之一:我们决策的逻辑可以用以前不可能的方式进行形式上的分析,以及数字上的分离。因此,如今法官们知道在做决定时需要考虑这些更广泛的不平衡。“ProPublica揭示的问题其实是关于我们如何看待预测,而我们如何看待算法也同样重要。”

学术界也有一些COMPAS如何改进的建议。卡内基梅隆大学海因茨学院统计学与公共政策教授亚历桑德拉·乔尔德乔娃表示,如果COMPAS的设计者允许在处理非裔美国人被告时稍微增加一些整体的不准确性,就可以确保算法对不同种族的错误率大致相同。“这个,”她指出,“或许就是你希望达成的权衡。”

算法中的性别歧视

谷歌翻译存在着隐性的性别歧视问题。你可以尝试将短语“o bir doktor”和“o bir hemşire”从土耳其语翻译成英语。这两个土耳其语短语用的都是性别中性的代词“o”,而谷歌翻译强制性地选择了性别代词。结果是,第一个短语被翻译成“he is a doctor”(他是一名医生),第二个则是“she is a nurse”(她是一名护士)。

在波士顿大学的Tolga Bolukbasi及其同事于2016年发表的一篇论文中,这些翻译是他们关注的焦点,并作为一类被称为单词嵌入的语言模型的例子。这些模型用于为翻译服务、搜索算法和自动完成功能提供支持,它们用自然语言的采集主体(比如谷歌新闻的文章)进行训练,通常没有人类语言学家的太多介入。模型中的单词被映射为高维空间中的点,因此给定的一对单词间的距离和方向表明了它们在意思上有多接近,以及具有什么样的语义关系。

举个例子,“Man”(男人)和“Woman”(女人)之间的距离与“King”(国王)和“Queen”(王后)之间的距离大致相同,方向也一样。单词嵌入模型还能使隐性偏见永久存在,就像谷歌翻译里的那样。模型的基础架构,即几十年来在数字语料库中收集的数十亿文本,已经开始以难以理解和改变的方式影响着我们的日常交流。然而,基础架构中许多偏见的纳入要早于它们以数字形式的制度化。而且,与COMPAS类似,研究这些偏见在算法中的出现带来了新的机会。

Bolukbasi和同事开发了一种通过在单词嵌入模型空间内移动单词,对语言进行“去偏见”的技术。想象一下,将单词“doctor”(医生)、“nurse”(护士)、“man”(男人)和“woman”(女人)放到一个正方形的4个点上,“man”和“woman”在底部,“doctor”和“nurse”在顶部。连接“doctor”和“nurse”的线段与“man”和“woman”之间的线段长度完全一致。因此,系统会将它们的关系视为是可类比的。Bolukbasi的去偏见策略是将“doctor”和“nurse”都推到顶部线段的中点,使它们与“man”和“woman”的距离都相同。从结果上,系统已经“忘记了”可类比性;之后翻译中所使用的代词将留给系统设计者决定。

改变单词之间的联系可能会带来显著的影响。普林斯顿大学的计算机科学教授阿尔文德·纳拉亚南与同事一起开发了测量机器学习模型中偏见程度的工具。三人从已经被深入研究的心理学测验——内隐联系测验(Implicit Association Test)——开始,在该测验的一个常见变体中,受试者在积极属性的词汇与反映社会类别的词汇之间进行配对的速度越快,他们对二者联系的确信程度就越高。在许多这样的配对中,反应时间的平均差异——通常是以毫秒计——可以作为隐性偏见的测量指标。纳拉亚南和同事讲反应时间替换成单词间的距离,建立了“单词嵌入联系测验”。该测验重现了内隐联系测验研究在同一组词汇中所发现的同一组刻板印象。

20多年来,内隐联系测验已经揭示出各种各样的隐性偏见,从性别到国籍再到种族,跨越许多不同背景的人群。由于偏见如此普遍,有人猜测人类的自然倾向——比如支配等级和群体内部的身份识别等——是造成这些偏见的原因;从这一角度看,偏见是人类天性中不可避免的。单词嵌入联系测验论文的作者推测,他们的研究结果支持了另一种(尽管不是唯一的)可能性:“仅仅接触语言就足以在我们脑海中产生这些隐性偏见。”换句话说,如果偏见是在语言本身的统计中体现并传播,那么我们说话的方式就不只是表达我们看待彼此的方式,而且也是构建偏见的方式。如果诸如Bolukbasi开发的去偏见项目能奏效的话,我们就可以大规模地改变偏见,并且是以之前不可能的方式:用软件。如果这些软件不能发挥作用,那持续几代人的数字化基础结构可能就会不断加强和延续这些偏见。

纳拉亚南指出,Bolukbasi的论文假设了性别是二元的,或至少性别词汇之间的遵循一条直线。“我不认为(我们)有任何(去偏见)能对一个可能稍微复杂的概念起作用的线索,”他说道。他特别指出了种族刻板印象,其中有关类别的概念与用来定义它们的方法一样有问题。

纳拉亚南使用从Amazon Mechanical Turk(一种被形容为“人工人工智能”的服务平台)招募的群体劳动者来确定他的性别工作中的类别。同样这些劳动者还评估了哪些类别出现偏见,以及程序消除这些偏见的成功程度。换句话说,关于什么是有偏见的决定,以及偏见被消除意味着什么,仍然与社会共识中的中位值密切相关,给社会进步加上了民粹主义的制约。

还有更令人气馁的担忧。巴洛卡斯和克劳福德近期指出,大多数关于算法公平性的研究都集中在所谓的“分配型伤害”(allocative harm),涉及到资源的分配,比如前面提到的当日送达服务、判决中采用的风险评分等。他们呼吁更多地关注种族主义批评者如贝尔·胡克斯(bell hooks)等提出的“象征型伤害”(representational harm)。举例来说,在谷歌图片搜索中输入“CEO”(首席执行官),所得到的结果中绝大多数都是白人的头像。纳拉亚南表示,这些问题可能会在公平性讨论中被忽视,因为“它们在数学上更难以确切阐述,在计算机科学中,如果你无法用正式的术语来研究某些东西,那它的存在合理性就不如那些能够转化成方程或算法的东西。”

在最糟糕的情况下,我们在处理数据中的偏见时所遇到的这样或那样的限制,将使我们构建中的算法成为新一代的混凝土桥,使不合理的现状在未来许多年里一直延续。在最好的情况下,数据基础架构将迫使我们以某些从未有过的方式,揭露并面对我们对公平和决策的定义。

这种紧张状态很难与我们通常的技术进步观念相协调。人们很容易认为技术变化要比社会更快,并且软件可以通过迅速加入新的社会规范来促进社会进步,并隔离倒退或恶意行为者的影响。一个量刑算法能造成的伤害要比一个明显偏执的法官小得多。但是,技术也可能掩盖偏见的历史和背景,减缓甚至阻碍社会进步。基础设施很难改变,而机会也在逐渐减少:技术可以在未来改进,但我们正在决定需要做出哪些权衡。目前尚不清楚我们是否有机会重新审视这些权衡。

毕竟,算法变得越普遍,被取代的可能性就越低。虽然我们可能每两年就升级一次手机,但核心软件基础架构的改造依然面临很大障碍。考虑到渗透到我们生活中的过时技术已经非常多,例如空中交通管制系统主要依赖于20世纪70年代开发的软件。在2017年瘫痪了英国医院系统的“WannaCry”蠕虫病毒,利用的便是这样一个事实:这些系统是在几十年前的Windows版本上运行的,微软公司甚至已经不再提供维护。机器对语言的理解嵌入在核心服务中,可以在数年或数十年后依然呈现出今天的偏见。用艺术家Nicole Aptekar的话来说,“基础架构击败了意图。”

新的数字基础架构面临的最大危险并不是会腐朽,也不是容易受到攻击,而是其最糟糕的功能将继续存在。一旦大桥建起来,要拆掉就很难了。(任天)

加载中...