Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods

Jieyu Zhao; Tianlu Wang; Mark Yatskar; Vicente Ordonez; Kai-Wei Chang

publication

Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods

Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez, Kai-Wei Chang.

North American Chapter of the Association for Computational Linguistics. NAACL 2018. short. New Orleans, Louisiana. June 2018.

статья pdf code исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из UCLA, University of Virginia и Allen Institute for Artificial Intelligence обнаружили, что широко используемые системы разрешения кореференции — программное обеспечение, которое определяет, когда разные слова в предложении ссылаются на одного и того же человека или вещь — систематически отражают гендерные стереотипы способами, которые могут навредить людям в реальных приложениях. Чтобы измерить проблему, команда построила новый тестовый набор данных под названием WinoBias, состоящий из 3160 предложений, которые сочетают профессии с гендерно-окрашенными местоимениями способами, которые логически не должны влиять на то, к какому человеку относится местоимение, — но часто влияют. Когда они прогнали три устоявшиеся системы кореференции через WinoBias, все три работали заметно лучше, когда местоимения соответствовали гендерно-стереотипным ожиданиям (связывая «she» с «nurse», например), чем когда они шли вразрез с ними, со средним разрывом в производительности в 21,1 пункта по шкале оценок F1. Исследователи проследили большую часть предвзятости до обучающего корпуса OntoNotes, где более 80 процентов сущностей, упоминаемых гендерно-окрашенными местоимениями, были мужского рода, и до эмбеддингов слов, которые кодируют стереотипные ассоциации. Чтобы противостоять этому, они разработали технику аугментации данных, которая генерирует зеркальную версию обучающих данных путём замены всех мужских и женских упоминаний, и объединили её с существующими методами устранения предвзятости в эмбеддингах слов. Эта комбинация эффективно устранила разрыв в производительности на WinoBias без значимого ущерба точности на стандартных бенчмарках — результат, который важен, поскольку разрешение кореференции питает широкий спектр последующих языковых технологий, а значит, неконтролируемая предвзятость в этих системах может незаметно распространяться через многие приложения.

аннотация

Мы представляем новый бенчмарк WinoBias для разрешения кореференции, сфокусированный на гендерной предвзятости. Наш корпус содержит предложения в стиле схем Винограда с сущностями, соответствующими людям, упоминаемым по их профессии (например, медсестра, врач, плотник). Мы демонстрируем, что основанная на правилах, насыщенная признаками и нейронная системы разрешения кореференции — все связывают гендерно-окрашенные местоимения с про-стереотипными сущностями с более высокой точностью, чем с анти-стереотипными сущностями, в среднем на 21,1 по показателю F1. Наконец, мы демонстрируем подход аугментации данных, который в сочетании с существующими техниками устранения предвзятости в эмбеддингах слов устраняет предвзятость, демонстрируемую этими системами на WinoBias, без значимого влияния на их производительность на существующих эталонных наборах данных для кореференции. Наш набор данных и код доступны по адресу http://winobias.org.

подробности

комментарий: NAACL '18 Camera Ready

цитирование

@inproceedings{zhao2018gender,
  title = {Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods},
  author = {Zhao, Jieyu and Wang, Tianlu and Yatskar, Mark and Ordonez, Vicente and Chang, Kai-Wei},
  year = {2018},
  booktitle = {North American Chapter of the Association for Computational Linguistics. NAACL 2018},
  url = {https://arxiv.org/abs/1804.06876},
}