Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla; Fuwen Tan; Yanjun Qi; Vicente Ordonez

← volver a publicaciones

publication

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez.

The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021. February 2021

artículo code pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Virginia han encontrado una forma de dar nueva vida a una técnica de aprendizaje automático de décadas de antigüedad llamada pseudoetiquetado, que había sido en gran medida abandonada en favor de enfoques más nuevos. El reto central del aprendizaje semisupervisado consiste en aprovechar al máximo situaciones en las que solo una pequeña fracción de los datos de entrenamiento lleva etiquetas asignadas por humanos, mientras que el resto permanece sin etiquetar, un problema común y costoso en la visión por computadora. El método del equipo, llamado Curriculum Labeling, funciona entrenando primero un modelo con el pequeño conjunto de datos etiquetado y luego asignando gradualmente etiquetas predichas a las imágenes no etiquetadas por etapas, comenzando solo con las predicciones sobre las que el modelo tiene más confianza e incorporando lentamente ejemplos más difíciles y menos seguros en rondas sucesivas. Dos decisiones de diseño concretas resultaron críticas: usar un umbral derivado de la teoría de valores extremos para determinar qué muestras no etiquetadas incluir en cada etapa, en lugar de basarse en cortes fijos ajustados a mano, y reiniciar por completo los parámetros del modelo antes de cada nueva ronda de entrenamiento en lugar de simplemente continuar afinándolo, un paso que evita que el modelo refuerce sus propios errores tempranos con el tiempo. Probado en benchmarks estándar de clasificación de imágenes, el enfoque alcanzó un 94,91 % de precisión en CIFAR-10 usando solo 4.000 imágenes etiquetadas e igualó el rendimiento de los principales métodos competidores en ImageNet usando solo el 10 % de los datos etiquetados. Los investigadores también mostraron que el método se mantiene mejor que la mayoría de las alternativas cuando los datos no etiquetados contienen imágenes de categorías ausentes en el conjunto etiquetado, un escenario más realista que las particiones limpias que suelen usarse en las evaluaciones académicas. El trabajo sugiere que los enfoques de autoentrenamiento no eran intrínsecamente defectuosos, sino que simplemente necesitaban una implementación más cuidadosa.

resumen

En este artículo revisitamos la idea del pseudoetiquetado en el contexto del aprendizaje semisupervisado, donde un algoritmo de aprendizaje tiene acceso a un pequeño conjunto de muestras etiquetadas y a un gran conjunto de muestras no etiquetadas. El pseudoetiquetado funciona aplicando pseudoetiquetas a las muestras del conjunto no etiquetado mediante un modelo entrenado con la combinación de las muestras etiquetadas y cualquier muestra pseudoetiquetada previamente, repitiendo este proceso de forma iterativa en un ciclo de autoentrenamiento. Los métodos actuales parecen haber abandonado este enfoque en favor de métodos de regularización por consistencia que entrenan modelos bajo una combinación de distintos estilos de pérdidas autosupervisadas sobre las muestras no etiquetadas y pérdidas supervisadas estándar sobre las muestras etiquetadas. Demostramos empíricamente que el pseudoetiquetado puede, de hecho, ser competitivo con el estado del arte, siendo a la vez más resistente a las muestras fuera de distribución del conjunto no etiquetado. Identificamos dos factores clave que permiten al pseudoetiquetado lograr resultados tan notables: (1) aplicar principios de aprendizaje por currículo y (2) evitar la deriva de conceptos reiniciando los parámetros del modelo antes de cada ciclo de autoentrenamiento. Obtenemos un 94,91 % de precisión en CIFAR-10 usando solo 4.000 muestras etiquetadas, y un 68,87 % de precisión top-1 en Imagenet-ILSVRC usando solo el 10 % de las muestras etiquetadas. El código está disponible en https://github.com/uvavision/Curriculum-Labeling

detalles

comentario: In the 35th AAAI Conference on Artificial Intelligence. AAAI 2021

cita

@inproceedings{cascantebonilla2021curriculum,
  title = {Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning},
  author = {Cascante-Bonilla, Paola and Tan, Fuwen and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021},
  url = {https://arxiv.org/abs/2001.06001},
}