Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations

Tianlu Wang; Jieyu Zhao; Mark Yatskar; Kai-Wei Chang; Vicente Ordonez

← 논문 목록으로 돌아가기

publication

Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations

Tianlu Wang, Jieyu Zhao, Mark Yatskar, Kai-Wei Chang, Vicente Ordonez.

International Conference on Computer Vision. ICCV 2019. Seoul, South Korea. October 2019.

논문 code demo pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

버지니아 대학교, UCLA, Allen Institute for Artificial Intelligence의 연구진은 학습 데이터셋의 균형을 맞추는 것만으로는 AI 이미지 인식 시스템이 성별 고정관념을 증폭하는 것을 막기에 충분하지 않다는 것을 발견하였다. 연구팀은 널리 사용되는 두 데이터셋, 즉 일상적인 객체를 레이블링하는 COCO와 인간의 행동을 레이블링하는 imSitu로 학습된 모델을 연구하였으며, 남성과 여성이 각 범주 레이블과 동등하게 자주 나타나도록 데이터를 인위적으로 재균형했을 때조차도 학습된 모델이 여전히 원래의 편향된 데이터로 학습된 모델과 거의 같은 부풀려진 비율로 성별을 범주와 연관시키는 법을 배운다는 것을 발견하였다. 이 문제를 더 정밀하게 측정하기 위해, 연구진은 "데이터셋 누출(dataset leakage)"과 "모델 누출(model leakage)"이라 부르는 두 가지 새로운 지표를 개발하였는데, 이는 외부 관찰자가 모델이 이미지에 할당하는 레이블만 보고 이미지 속 사람의 성별을 얼마나 정확하게 추측할 수 있는지를 정량화한다. 이 두 측정값 사이의 격차는 모델이 데이터 자체가 담고 있는 것을 넘어 자신의 예측에 얼마나 많은 추가적인 성별 정보를 밀반입하는지를 포착한다. 균형 맞추기가 실패하는 이유에 대한 이들의 설명은 단순하다. 데이터셋은 아이의 존재, 의복 스타일, 신체 자세와 같이 성별과 상관관계가 있고 레이블 수를 조정하는 것만으로는 중화될 수 없는 수많은 레이블되지 않은 시각적 단서를 담고 있다는 것이다. 실제로 편향을 줄이기 위해, 연구팀은 네트워크가 중간 계층에 성별 예측 가능한 특징을 인코딩하는 것을 능동적으로 처벌하는 적대적 구성 요소로 모델을 학습시켜, 분류 정확도에서 약 1~2 퍼센트 포인트만 희생하면서 편향 증폭을 53%에서 67%까지 감소시켰다. 이 연구는 AI에서의 인구통계적 공정성이 데이터셋 큐레이션만으로 달성될 수 있다고 가정하는 누구에게나 경고이며, 더 신뢰할 수 있는 길로서 더 깊은 아키텍처적 개입을 가리킨다.

초록

본 연구에서 우리는 시각 인식 과제에서 성별과 같은 보호 변수에 관한 내재적 편향을 측정하고 완화하는 프레임워크를 제시한다. 우리는 학습된 모델이 편향된 데이터셋으로부터 예상할 수 있는 수준을 넘어 목표 레이블과 성별의 연관을 상당히 증폭함을 보인다. 놀랍게도, 우리는 각 레이블이 각 성별과 동등하게 공동 출현하도록 데이터셋이 균형을 이루었을 때조차도, 학습된 모델이 마치 데이터가 균형을 이루지 않은 것처럼 레이블과 성별 사이의 연관을 증폭함을 보인다! 이를 완화하기 위해, 우리는 심층 신경망의 중간 표현에서 보호 변수에 대응하는 원치 않는 특징을 제거하는 적대적 접근을 채택하고, 그 효과에 대한 상세한 분석을 제공한다. 두 데이터셋, 즉 COCO 데이터셋(객체)과 imSitu 데이터셋(행동)에 대한 실험은 원래 모델의 정확도 대부분을 유지하면서 성별 편향 증폭의 감소를 보여 준다.

세부 정보

비고: 10 pages, 7 figures, ICCV 2019

인용

@inproceedings{wang2019balanced,
  title = {Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations},
  author = {Wang, Tianlu and Zhao, Jieyu and Yatskar, Mark and Chang, Kai-Wei and Ordonez, Vicente},
  year = {2019},
  booktitle = {International Conference on Computer Vision. ICCV 2019},
  url = {https://arxiv.org/abs/1811.08489},
}