Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations
プレスリリース要約
バージニア大学、UCLA、Allen Institute for Artificial Intelligenceの研究者らは、訓練データセットを単にバランスさせるだけでは、AIの画像認識システムが性別ステレオタイプを増幅するのを防ぐには不十分であることを見出した。チームは、日常的な物体にラベルを付けるCOCOと、人間の動作にラベルを付けるimSituという広く使われている2つのデータセットで訓練されたモデルを研究し、各カテゴリラベルの隣に男性と女性が均等な頻度で現れるようにデータを人工的に再バランスした場合でさえ、訓練済みモデルが依然として元の偏ったデータで訓練されたモデルとほぼ同じ膨らんだ割合で性別をそれらのカテゴリと関連付けることを学習することを見出した。この問題をより正確に測定するため、研究者らは「データセット漏洩」と「モデル漏洩」と呼ぶ2つの新しい指標を開発した。これらは、外部の観察者がモデルが画像に付与したラベルを見るだけで、その画像中の人物の性別をどれだけ正確に推測できるかを定量化するものである。これら2つの尺度の差は、モデルがデータ自体に含まれる以上にどれだけ多くの追加的な性別情報をその予測に密かに持ち込んでいるかを捉える。バランス化がなぜ失敗するのかについての彼らの説明は単純明快である。データセットには、子どもの存在、服装のスタイル、体の姿勢といった、性別と相関し、ラベル数の調整だけでは中和できない、ラベル付けされていない無数の視覚的手がかりが含まれているのである。バイアスを実際に低減するため、チームは中間層で性別を予測可能な特徴を符号化することに対してネットワークを能動的にペナルティを課す敵対的構成要素を用いてモデルを訓練し、分類精度をわずか1〜2パーセントポイント犠牲にするだけで、バイアス増幅を53〜67パーセント低減することを達成した。この研究は、AIにおける人口統計的な公平性がデータセットのキュレーションだけで達成できると考える者への警告であり、より深いアーキテクチャ上の介入をより信頼できる前進への道として指し示している。
要旨
本研究では、視覚認識タスクにおける性別などの保護対象変数に関する内在的バイアスを測定し緩和するためのフレームワークを提示する。我々は、訓練済みモデルが、バイアスのあるデータセットから予想される以上に、目標ラベルと性別の関連付けを著しく増幅することを示す。驚くべきことに、各ラベルが各性別と均等に共起するようにデータセットがバランスされている場合でさえ、学習されたモデルがラベルと性別の関連付けを、あたかもデータがバランスされていなかったかのように増幅することを示す。これを緩和するため、我々は深層ニューラルネットワークの中間表現から保護対象変数に対応する不要な特徴を除去する敵対的アプローチを採用し、その有効性の詳細な分析を提供する。COCOデータセット(物体)とimSituデータセット(動作)の2つのデータセットでの実験は、元のモデルの精度の大部分を維持しつつ、性別バイアスの増幅が低減されることを示す。
詳細
引用
@inproceedings{wang2019balanced,
title = {Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations},
author = {Wang, Tianlu and Zhao, Jieyu and Yatskar, Mark and Chang, Kai-Wei and Ordonez, Vicente},
year = {2019},
booktitle = {International Conference on Computer Vision. ICCV 2019},
url = {https://arxiv.org/abs/1811.08489},
}