Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning
publication

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez.
The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021. February 2021
研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表(記者)スタイルの文体で書かれています。

バージニア大学の研究者らは、擬似ラベル付けと呼ばれる数十年前から存在する機械学習手法に新たな命を吹き込む方法を見出した。この手法は、より新しいアプローチに取って代わられ、ほぼ放棄されていた。半教師あり学習における中心的な課題は、訓練データのごく一部のみが人手で付与されたラベルを持ち、残りがラベルなしのままであるという状況を最大限に活用することであり、これはコンピュータビジョンにおいてよくある、かつコストのかかる問題である。Curriculum Labelingと呼ばれるこのチームの手法は、まず少数のラベル付きデータセットでモデルを訓練し、次に段階的にラベルなし画像に予測ラベルを付与していくことで機能する。最初はモデルが最も自信を持っている予測のみから始め、後続のラウンドで徐々により困難で不確実な事例を取り込んでいく。2つの具体的な設計上の選択が決定的に重要であることが判明した。1つは、固定された手調整のしきい値に頼るのではなく、極値理論から導かれるしきい値を用いて各段階でどのラベルなしサンプルを取り込むかを決定すること、もう1つは、単にファインチューニングを続けるのではなく、各新しい訓練ラウンドの前にモデルのパラメータを完全にリセットすることであり、これはモデルが時間とともに自らの初期の誤りを強化してしまうのを防ぐステップである。標準的な画像分類ベンチマークでテストしたところ、このアプローチはわずか4,000枚のラベル付き画像を用いてCIFAR-10で94.91%の精度に到達し、ラベル付きデータのわずか10%を用いてImageNetで主要な競合手法の性能に匹敵した。研究者らはまた、ラベル付き集合に存在しないカテゴリの画像がラベルなしデータに含まれる場合、つまり学術的評価で通常用いられるきれいな分割よりも現実的なシナリオにおいて、この手法がほとんどの代替手法よりもよく持ちこたえることも示した。この研究は、自己訓練アプローチが本質的に欠陥を抱えていたのではなく、単により慎重な実装を必要としていただけであることを示唆している。

要旨

本論文では、学習アルゴリズムが少数のラベル付きサンプルと大量のラベルなしサンプルにアクセスできる半教師あり学習の文脈において、擬似ラベル付けの考え方を再検討する。擬似ラベル付けは、ラベル付きサンプルとそれまでに擬似ラベルを付与されたサンプルを組み合わせて訓練されたモデルを用いてラベルなし集合のサンプルに擬似ラベルを付与し、この過程を自己訓練サイクルの中で反復的に繰り返すことで機能する。現在の手法は、このアプローチを放棄し、ラベルなしサンプルに対するさまざまな種類の自己教師あり損失とラベル付きサンプルに対する標準的な教師あり損失の組み合わせのもとでモデルを訓練する一貫性正則化手法を採用しているようである。我々は、擬似ラベル付けが実際には最先端手法と競合しうると同時に、ラベルなし集合中の分布外サンプルに対してより頑健であることを実証的に示す。擬似ラベル付けがこのような顕著な結果を達成できる2つの重要な要因を特定する。(1) カリキュラム学習の原理を適用すること、(2) 各自己訓練サイクルの前にモデルパラメータを再初期化することで概念ドリフトを回避することである。我々はわずか4,000個のラベル付きサンプルを用いてCIFAR-10で94.91%の精度を、ラベル付きサンプルのわずか10%を用いてImagenet-ILSVRCで68.87%のトップ1精度を達成した。コードはhttps://github.com/uvavision/Curriculum-Labeling で公開されている。

詳細

コメント
In the 35th AAAI Conference on Artificial Intelligence. AAAI 2021

引用

@inproceedings{cascantebonilla2021curriculum,
  title = {Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning},
  author = {Cascante-Bonilla, Paola and Tan, Fuwen and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021},
  url = {https://arxiv.org/abs/2001.06001},
}