新闻稿摘要
弗吉尼亚大学和 Salesforce Research 的研究人员识别出了一个此前被忽视的、削弱了从词嵌入中移除性别偏见的常用技术的因素——词在训练数据中的统计频率。词嵌入是无数 AI 和自然语言处理应用所使用的语言数字表示,已知会编码社会上的性别刻板印象,例如将“程序员”与男性、将“家庭主妇”与女性相关联。针对这一问题的主流修复方法是一种名为 Hard Debias 的算法,它通过从嵌入空间中识别并投影出一个“性别方向”来工作,但研究人员发现,嵌入中所蕴含的词频信息会在该性别方向被干净地移除之前就将其扭曲。为解决这一问题,他们构建了一种两步方法 Double-Hard Debias,它首先剥离掉嵌入中与频率相关的成分,然后再施加标准的 Hard Debias 过程。在 GloVe 和 Word2Vec 嵌入上跨三个标准偏见基准(包括一项指代消解任务、一项词联想测试和一项基于聚类的几何检查)进行测试,他们的方法比以往方法更显著地降低了可测量的性别偏见:指代消解系统在性别刻板印象句与反刻板印象句上表现之间的差距,从未经修改的 GloVe 的 15.2 个百分点降至他们方法的仅 0.9 个百分点,同时在词类比和归类任务上的整体语言质量基本保持不变。这项工作表明,净化词嵌入需要更密切地关注语料统计所遗留下来的结构性伪影。
摘要
从人类生成的语料中导出的词嵌入继承了强烈的性别偏见,而这种偏见可能被下游模型进一步放大。一些被普遍采用的去偏方法,包括开创性的 Hard Debias 算法,会施加后处理过程,将预训练词嵌入投影到与一个推断出的性别子空间正交的子空间中。我们发现,词嵌入所捕获的与语义无关的语料规律(如词频)会对这些算法的性能产生负面影响。我们提出一种简单但有效的技术——Double Hard Debias,它在推断和移除性别子空间之前,先针对此类语料规律对词嵌入进行净化。在三个偏见缓解基准上的实验表明,我们的方法在保留预训练词嵌入分布式语义的同时,将性别偏见降低到比以往方法显著更大的程度。
详情
引用
@inproceedings{wang2020double,
title = {Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation},
author = {Wang, Tianlu and Lin, Xi Victoria and Rajani, Nazneen Fatema and McCann, Bryan and Ordonez, Vicente and Xiong, Caiming},
year = {2020},
booktitle = {Association for Computational Linguistics. ACL 2020},
url = {https://arxiv.org/abs/2005.00965},
}