보도 자료 요약
UC Santa Barbara와 라이스 대학교의 연구진은 가장 널리 사용되는 텍스트 생성 모델 중 하나인 GPT-2가 여성을 더 낮은 직책과, 남성을 더 높은 직책과 체계적으로 짝짓는다는 것을, 그리고 이러한 경향이 프롬프트에 직급 단서가 추가될 때 더 심해진다는 것을 발견했다. 이 문제를 연구하기 위해 연구팀은 미국 상원의원과 컴퓨터 과학 교수라는 두 전문 도메인을 다루는 Google 검색 결과에서 추출한 실세계 텍스트 단편 데이터셋을 구축했다. 그런 다음 성별 또는 직급 표지를 바꿔 각 단편의 짝지어진 "반사실(counterfactual)" 버전을 만들어, 모델이 어떤 조합을 보았는지에 따라 모델의 확신이 어떻게 변하는지를 측정할 수 있게 했다. GPT-2가 주어진 문장에 대해 얼마나 놀라는지를 본질적으로 묻는 퍼플렉서티 테스트에서, 모델은 여성이 상급 직책을 가졌다는 것을 남성이 그러한 직책을 가졌다는 것보다 일관되게 덜 그럴듯하게 여겼으며, 하급 직책에 대해서는 그 반대가 성립했다. 두 번째 실험에서 연구팀은 직급 표현만 다르게 한 성중립적 프롬프트를 모델에 입력하고 인간 평가자가 그에 응답하여 GPT-2가 생성한 언어의 성별을 분류하게 했다. 모델은 상원의원이나 교수의 실제 인구 통계가 정당화하는 것보다 훨씬 더 자주 남성 성별의 텍스트를 생성했으며, 프롬프트에 "senior"라는 단어가 나타날 때 그 격차가 더 벌어졌다. 이 발견이 중요한 이유는 GPT-2 및 유사 모델이 이력서 선별기나 HR 챗봇과 같은 도구의 기반이 되며, 따라서 이러한 복합된 성별-직급 편향이 여성에게 불평등한 전문적 기회로 직접 이어질 수 있기 때문이다.
초록
여성은 동일한 직책 내에서조차 흔히 남성 동료보다 하급으로 인식된다. 자연어 처리(NLP)에서 성별 편향 평가에 상당한 진전이 있었지만, 기존 연구는 성별 집단에 대한 편향이 다른 사회적 편향과 결합될 때 어떻게 변화하는지를 거의 조사하지 않는다. 본 연구에서 우리는 복합 편향을 탐색하는 새로운 프레임워크를 도입하여, 직급(seniority)이 사전 학습된 신경 생성 모델에서 나타나는 성별 편향의 정도에 어떻게 영향을 미치는지를 조사한다. 우리는 원거리 지도(distant-supervision) 방법을 사용하여 생성된, 미국 상원의원직과 교수직이라는 두 도메인에 걸친 벤치마크 견고성 검증 데이터셋을 기여한다. 우리 데이터셋은 기저 정답(ground truth)과 짝지어진 반사실(counterfactual)을 갖춘 인간 작성 텍스트를 포함한다. 그런 다음 우리는 GPT-2 퍼플렉서티(perplexity)와 생성된 텍스트에서 성별 표현 언어의 빈도를 검토한다. 우리의 결과는 GPT-2가 두 도메인 모두에서 정답보다 더 자주 여성을 하급으로, 남성을 상급으로 간주함으로써 편향을 증폭함을 보여준다. 이러한 결과는 GPT-2를 사용하여 구축된 NLP 응용이 전문적 영역에서 여성에게 해를 끼칠 수 있음을 시사한다.
세부 정보
인용
@inproceedings{honnavalli2022towards,
title = {Towards Understanding Gender-Seniority Compound Bias in Natural Language Generation.},
author = {Honnavalli, Samhita and Parekh, Aesha and Ou, Lily and Groenwold, Sophie and Levy, Sharon and Ordonez, Vicente and Wang, William Yang},
year = {2022},
booktitle = {Language Resources and Evaluation Conference LREC 2022},
url = {https://arxiv.org/abs/2205.09830},
}