利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见摘要性别偏见普遍存在于世界上的大多数

摘要性别偏见普遍存在于世界上的大多数语言，且通过自然语言处理（NLP）系统被传播或放大。虽然已经存在研究着眼于降低英语中的性别刻板印象，但是那些方法运用在语法形态丰富的语言时经常会产生不符合语法的句子。本文提出了一种基于上述语言转换句子中男性屈折与女性屈折的新方法。对于西班牙语与希伯来语，本文的方法实现了 F1 score（精确率和召回率的调和平均数）分别为 82%与 73% ，且准确率为 90%与 87% 。通过四种不同的语言对该方法进行测试，经过实验，平均水平下，该方法能降低性别偏见至原来的 40% ，且不影响句子的语法。
1 介绍目前自然语言处理(NLP)系统面临的重大挑战之一是系统会无意识的复制或者放大某种社会偏见。这是由于 NLP 系统依赖于那些本质就不客观、带着个人主观意愿的语料库。性别偏见是一种得到 NLP 社区注意的社会偏见。显然地，性别偏见存在于一般的语境中。例如，由于工程师中目前的性别差异，句子“他是个工程师”比“她是个工程师”更常见于语料库中。因此任何一个经过此类语料库训练的 NLP 系统，都更容易将工程师与男性联系起来，而不是女性。
时至今日,NLP 社区主要集中于英语中的性别偏见的检测和降低方法研究。由于性别偏见是一个社会现象而不是语法现象，所以同样存在于其他语言中。而且，因为英语并不标注语法性别，于是那些训练于英语的方法，并不适用于那些有着性别展示语法且语法形态丰富的语言。在这些语言中，句子的单词都标有反映周围名词语法性别的语法形态结尾。这意味着，如果一个单词的语法性别发生了改变，其他的单词都需要更新来匹配这个改变。简单的推理，例如，添加其中有被替换他她的句子的语料，将会产生不合语法的句子。比如一个西班牙短语 el ingeniero expert (训练有素的工程师) 。仅仅将 ingeniero 替换为 in\geniera 是不足的， el、experto 也同样要被替换为 la、experta 。
基于本文，本文提出了一个新方法通过对相反的性别名词的扩增来降低在语法形态丰富的语言中的性别偏见。本文引入了一个马尔可夫随机场，该模型中设置一个可选的神经网络参数，用来判断句子中特定名词语法性别被改变时，整个句子是否需要改变。本文使用这个模型作为图一中描述的四步过程的一步，主要是改变一个词的语法性别后再改变整个句子。通过西班牙语和希伯来语对该方法进行评估，标签级 F1 score（精确率和召回率的调和平均数）分别为 82%与 73%,且表格级的准确率能达到 90%与 87% 。本文同样组织了四种语言的外部测评，平均水平上，本文的方法能降低性别偏见至原来的 40% ，且不影响句子的语法。
2 文本中存在的性别偏见男性和女性在文本中被提及的比率是不一样的。这个问题在某些情况下被加剧。例如，由于工程师中目前的性别差异，句子“他是个工程师”比“她是个工程师”更常见于语料库中。这种不平衡会使得此类语料库训练的 NLP 系统产生显著的下游影响，例如在简历自动过滤系统中，男性工程师明显优先于女性工程师。此类性别偏见在单词嵌入、上下文词嵌入和指代消解系统都普遍存在。
一个快速修复方法：交换表述性别的单词。一个降低此类性别偏见的方法是反义数据扩增(CDA) 。在英语中，该方法包括扩增语料库，其语料库中添加额外的句子，句中的性别词汇已经被替换过，以达到性别的相对平衡。事实上，赵等人(2018)已经阐述了这个简单启发式方法在不影响系统性能的前提下，显著的降低了神经指代消解系统中的性别偏见。不幸的是，此方法只适用于英语或者其他形态变化较小的语言。当被运用于性别形态变化大的语言中，会产生不符合语法的句子。
问题所在：屈折语。包括西班牙语与希伯来语的许多语言，对名词、动词和形容词都存在性别的变化，且存在反映周围名词的语法性别的形态学结尾。这意味着，如果一个单词的性别发生变化，其他的单词也需要更新，以保持形态一致。请看下面这个西班牙语例子，本文希望将句子(1)转换成句子(2).(表示性别的词被黑体标注) 。这个例子不是简单的替换 el 与 al ，同时 ingeniero 与 experto 也被替换。此外，并不是所有的语言需要替换的部分都相同。 (在希伯来语中动词也标注性别，而西班牙语则不同) 。

利用反义数据扩增技术来降低语法形态丰富语言中的性别偏见

推荐阅读

搞笑大魔王|搞笑GIF趣图：昨天晚上玩的挺嗨啊！

「历史酿的酒」如来为何不敢打杀孙悟空？有这两个原因，西游记大闹天宫之时

今日事娃娃脸却有魔鬼身材，为啥程潇能够如此出圈？看清她和队友的差距

云南|云南新增本土确诊病例7例：境外输入病例4例、无症状感染者3例

日本经济|难怪日本制造业厉害，背后的秘密，竟然这么多

驱动中国|美团市值超2000亿美元仅次于腾讯、阿里成国内第三大互联网巨头

驱动中国|BCS2020系列活动5G安全高峰论坛顺利召开，共议5G行业应用安全热点

宠物狐驱虫方法介绍

#杨紫#求你们别再装嫩了！杨紫的深坑，热巴的油皮，看到杨幂我崩溃了！

中年|七夕节简说两份半年报

苏子侃历史|真的如此窝囊吗？其实他才是真正的高手，被诸葛亮占尽便宜的鲁肃

发热的原因有哪些引起发烧的原因

十倍股|谁是下一个贵州茅台？机构预测十倍牛股名单出炉！

中医李知行|才知道当个二胎宝妈没那么容易，满满的无奈和心酸，生了二胎后

砺剑堂▲反潜反舰功能全面，俄新一代护卫舰战力强悍，配备超音速反舰导弹

鲤鱼|暮春野钓江河攻略，真的可以爆护，位置特别重要

『电竞趣聊』斗鱼COD主播二红带队吃鸡，真正的''巾帼英雄''，颜值与技术并存

中国建设报产经报道|人社部：行业协会商会证书不能用“中国”“全国”等字样和国徽

普世老中医身体有这5个表现，是血脂高了该提高警惕，教你几个方法避免三高

口罩什么材质好？口罩材质有哪些简单介绍一下？