Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation
Краткое изложение пресс-релиза
Исследователи из University of Virginia и Salesforce Research выявили ранее не замеченный фактор, который подрывает распространённые методы устранения гендерной предвзятости из эмбеддингов слов, — статистическую частоту слов в обучающих данных. Известно, что эмбеддинги слов, числовые представления языка, используемые в бесчисленных приложениях ИИ и обработки естественного языка, кодируют общественные гендерные стереотипы, например связывая «программиста» с мужчинами, а «домохозяйку» — с женщинами. Доминирующее решение этой проблемы, алгоритм под названием Hard Debias, работает, выявляя и проецируя прочь «гендерное направление» из пространства эмбеддингов, но исследователи обнаружили, что информация о частоте слов, встроенная в эмбеддинги, искажает это гендерное направление до того, как его можно чисто удалить. Чтобы справиться с этим, они построили двухшаговый метод под названием Double-Hard Debias, который сначала удаляет связанный с частотой компонент эмбеддингов, а затем применяет стандартную процедуру Hard Debias. При тестировании на эмбеддингах GloVe и Word2Vec на трёх стандартных бенчмарках предвзятости — включая задачу разрешения кореференции, тест на словесные ассоциации и геометрическую проверку на основе кластеризации — их подход снизил измеримую гендерную предвзятость существеннее, чем прежние методы: разрыв между тем, насколько хорошо система разрешения кореференции работала на гендерно-стереотипных против контрстереотипных предложений, сократился с 15,2 процентного пункта при немодифицированном GloVe до всего 0,9 при их методе, тогда как общее качество языка на задачах словесных аналогий и категоризации осталось в основном неизменным. Работа показывает, что очистка эмбеддингов слов требует более пристального внимания к структурным артефактам, которые оставляет после себя статистика корпуса.
аннотация
Эмбеддинги слов, полученные из созданных человеком корпусов, наследуют сильную гендерную предвзятость, которая может далее усиливаться последующими моделями. Некоторые широко применяемые подходы к устранению предвзятости, включая основополагающий алгоритм Hard Debias, применяют процедуры постобработки, которые проецируют предобученные эмбеддинги слов в подпространство, ортогональное выведенному гендерному подпространству. Мы обнаруживаем, что независимые от семантики закономерности корпуса, такие как частота слов, улавливаемая эмбеддингами слов, негативно влияют на производительность этих алгоритмов. Мы предлагаем простой, но эффективный приём — Double Hard Debias, — который очищает эмбеддинги слов от таких закономерностей корпуса перед выведением и удалением гендерного подпространства. Эксперименты на трёх бенчмарках снижения предвзятости показывают, что наш подход сохраняет дистрибутивную семантику предобученных эмбеддингов слов, при этом снижая гендерную предвзятость в значительно большей степени, чем прежние подходы.
подробности
цитирование
@inproceedings{wang2020double,
title = {Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation},
author = {Wang, Tianlu and Lin, Xi Victoria and Rajani, Nazneen Fatema and McCann, Bryan and Ordonez, Vicente and Xiong, Caiming},
year = {2020},
booktitle = {Association for Computational Linguistics. ACL 2020},
url = {https://arxiv.org/abs/2005.00965},
}