Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla; Fuwen Tan; Yanjun Qi; Vicente Ordonez

← retour aux publications

publication

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez.

The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021. February 2021

article code pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université de Virginie ont trouvé un moyen de redonner vie à une technique d'apprentissage automatique vieille de plusieurs décennies, appelée pseudo-étiquetage, qui avait été largement abandonnée au profit d'approches plus récentes. Le défi central de l'apprentissage semi-supervisé est de tirer le meilleur parti des situations où seule une petite fraction des données d'entraînement porte des étiquettes attribuées par des humains, tandis que le reste demeure non étiqueté — un problème courant et coûteux en vision par ordinateur. La méthode de l'équipe, appelée Curriculum Labeling, consiste d'abord à entraîner un modèle sur le petit jeu de données étiqueté, puis à attribuer progressivement des étiquettes prédites aux images non étiquetées par étapes, en commençant uniquement par les prédictions les plus sûres et en incorporant lentement des exemples plus difficiles et moins certains au fil des tours successifs. Deux choix de conception spécifiques se sont révélés déterminants : l'utilisation d'un seuil dérivé de la théorie des valeurs extrêmes pour déterminer quels échantillons non étiquetés inclure à chaque étape, plutôt que de s'appuyer sur des seuils fixes ajustés à la main, et la réinitialisation complète des paramètres du modèle avant chaque nouveau tour d'entraînement au lieu de simplement poursuivre son affinage — une étape qui empêche le modèle de renforcer ses propres erreurs initiales au fil du temps. Testée sur des benchmarks standard de classification d'images, l'approche a atteint une précision de 94,91 % sur CIFAR-10 en n'utilisant que 4 000 images étiquetées et a égalé les performances des principales méthodes concurrentes sur ImageNet en n'utilisant que 10 % des données étiquetées. Les chercheurs ont également montré que la méthode résiste mieux que la plupart des alternatives lorsque les données non étiquetées contiennent des images de catégories absentes de l'ensemble étiqueté, un scénario plus réaliste que les répartitions propres habituellement utilisées dans les évaluations universitaires. Ces travaux suggèrent que les approches d'auto-apprentissage n'étaient pas fondamentalement défaillantes, mais nécessitaient simplement une mise en œuvre plus soignée.

résumé

Dans cet article, nous revisitons l'idée du pseudo-étiquetage dans le contexte de l'apprentissage semi-supervisé, où un algorithme d'apprentissage a accès à un petit ensemble d'échantillons étiquetés et à un grand ensemble d'échantillons non étiquetés. Le pseudo-étiquetage consiste à appliquer des pseudo-étiquettes aux échantillons de l'ensemble non étiqueté à l'aide d'un modèle entraîné sur la combinaison des échantillons étiquetés et de tout échantillon précédemment pseudo-étiqueté, en répétant ce processus de manière itérative dans un cycle d'auto-apprentissage. Les méthodes actuelles semblent avoir abandonné cette approche au profit de méthodes de régularisation par cohérence qui entraînent les modèles sous une combinaison de différents styles de pertes auto-supervisées sur les échantillons non étiquetés et de pertes supervisées standard sur les échantillons étiquetés. Nous démontrons empiriquement que le pseudo-étiquetage peut en réalité rivaliser avec l'état de l'art, tout en étant plus résilient face aux échantillons hors distribution présents dans l'ensemble non étiqueté. Nous identifions deux facteurs clés qui permettent au pseudo-étiquetage d'atteindre de tels résultats remarquables : (1) l'application des principes de l'apprentissage par curriculum et (2) l'évitement de la dérive conceptuelle en réinitialisant les paramètres du modèle avant chaque cycle d'auto-apprentissage. Nous obtenons une précision de 94,91 % sur CIFAR-10 en n'utilisant que 4 000 échantillons étiquetés, et une précision top-1 de 68,87 % sur Imagenet-ILSVRC en n'utilisant que 10 % des échantillons étiquetés. Le code est disponible à l'adresse https://github.com/uvavision/Curriculum-Labeling

détails

commentaire: In the 35th AAAI Conference on Artificial Intelligence. AAAI 2021

citation

@inproceedings{cascantebonilla2021curriculum,
  title = {Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning},
  author = {Cascante-Bonilla, Paola and Tan, Fuwen and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021},
  url = {https://arxiv.org/abs/2001.06001},
}