Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods

Jieyu Zhao; Tianlu Wang; Mark Yatskar; Vicente Ordonez; Kai-Wei Chang

publication

Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods

Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez, Kai-Wei Chang.

North American Chapter of the Association for Computational Linguistics. NAACL 2018. short. New Orleans, Louisiana. June 2018.

artigo pdf code bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da UCLA, da University of Virginia e do Allen Institute for Artificial Intelligence descobriram que sistemas amplamente utilizados de resolução de correferência — softwares que identificam quando diferentes palavras em uma frase se referem à mesma pessoa ou coisa — refletem sistematicamente estereótipos de gênero de maneiras que poderiam prejudicar pessoas em aplicações reais. Para medir o problema, a equipe construiu um novo conjunto de dados de teste chamado WinoBias, composto por 3.160 frases que combinam ocupações com pronomes de gênero de maneiras que não deveriam, logicamente, influenciar a qual pessoa o pronome se refere — mas frequentemente influenciam. Quando executaram três sistemas de correferência consolidados no WinoBias, todos os três tiveram desempenho visivelmente melhor quando os pronomes correspondiam a expectativas estereotipicamente de gênero (associando "ela" a "enfermeira", por exemplo) do que quando contrariavam essas expectativas, com uma diferença média de desempenho de 21,1 pontos na escala de pontuação F1. Os pesquisadores atribuíram grande parte do viés ao corpus de treinamento OntoNotes, em que mais de 80 por cento das entidades referidas por pronomes de gênero eram masculinas, e a embeddings de palavras que codificam associações estereotipadas. Para combater isso, desenvolveram uma técnica de aumento de dados que gera uma versão espelhada dos dados de treinamento trocando todas as referências masculinas e femininas, e a combinaram com métodos existentes de remoção de viés de embeddings de palavras. Essa combinação fechou efetivamente a diferença de desempenho no WinoBias sem prejudicar de forma significativa a precisão em benchmarks padrão — um resultado importante porque a resolução de correferência alimenta uma ampla gama de tecnologias de linguagem subsequentes, o que significa que o viés não controlado nesses sistemas pode se propagar silenciosamente por muitas aplicações.

resumo

Apresentamos um novo benchmark, o WinoBias, para resolução de correferência com foco no viés de gênero. Nosso corpus contém frases no estilo de esquemas de Winograd com entidades correspondentes a pessoas referidas por sua ocupação (por exemplo, a enfermeira, o médico, o carpinteiro). Demonstramos que um sistema de correferência baseado em regras, um rico em atributos e um neural, todos vinculam pronomes com marcação de gênero a entidades pró-estereotípicas com maior precisão do que a entidades antiestereotípicas, por uma diferença média de 21,1 na pontuação F1. Por fim, demonstramos uma abordagem de aumento de dados que, em combinação com técnicas existentes de remoção de viés de embeddings de palavras, elimina o viés demonstrado por esses sistemas no WinoBias sem afetar significativamente seu desempenho em conjuntos de dados de benchmark de correferência existentes. Nosso conjunto de dados e código estão disponíveis em http://winobias.org.

detalhes

comentário: NAACL '18 Camera Ready

citação

@inproceedings{zhao2018gender,
  title = {Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods},
  author = {Zhao, Jieyu and Wang, Tianlu and Yatskar, Mark and Ordonez, Vicente and Chang, Kai-Wei},
  year = {2018},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2018},
  url = {https://arxiv.org/abs/1804.06876},
}