Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla; Fuwen Tan; Yanjun Qi; Vicente Ordonez

← torna alle pubblicazioni

publication

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning

Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez.

The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021. February 2021

articolo code pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della University of Virginia hanno trovato un modo per dare nuova vita a una tecnica di machine learning vecchia di decenni chiamata pseudo-labeling, che era stata in gran parte abbandonata a favore di approcci più recenti. La sfida centrale dell'apprendimento semi-supervisionato è sfruttare al meglio le situazioni in cui solo una piccola frazione dei dati di addestramento porta etichette assegnate da esseri umani, mentre il resto rimane non etichettato — un problema comune e costoso nella visione artificiale. Il metodo del team, chiamato Curriculum Labeling, funziona addestrando prima un modello sul piccolo dataset etichettato, per poi assegnare gradualmente etichette previste alle immagini non etichettate per fasi, partendo solo dalle previsioni di cui il modello è più sicuro e incorporando lentamente esempi più difficili e meno certi nel corso di round successivi. Due scelte progettuali specifiche si sono rivelate cruciali: l'uso di una soglia derivata dalla Teoria dei Valori Estremi per determinare quali campioni non etichettati includere in ciascuna fase, anziché affidarsi a soglie fisse regolate a mano, e il reset completo dei parametri del modello prima di ogni nuovo round di addestramento anziché continuare semplicemente a perfezionarlo — un passaggio che impedisce al modello di rinforzare nel tempo i propri errori iniziali. Testato su benchmark standard di classificazione di immagini, l'approccio ha raggiunto un'accuratezza del 94,91% su CIFAR-10 utilizzando appena 4.000 immagini etichettate e ha eguagliato le prestazioni dei principali metodi concorrenti su ImageNet utilizzando solo il 10% dei dati etichettati. I ricercatori hanno inoltre dimostrato che il metodo regge meglio della maggior parte delle alternative quando i dati non etichettati contengono immagini di categorie non presenti nell'insieme etichettato, uno scenario più realistico delle suddivisioni pulite tipicamente usate nelle valutazioni accademiche. Il lavoro suggerisce che gli approcci di auto-addestramento non erano intrinsecamente difettosi, ma necessitavano semplicemente di un'implementazione più accurata.

abstract

In questo articolo riprendiamo l'idea del pseudo-labeling nel contesto dell'apprendimento semi-supervisionato, in cui un algoritmo di apprendimento ha accesso a un piccolo insieme di campioni etichettati e a un grande insieme di campioni non etichettati. Il pseudo-labeling funziona applicando pseudo-etichette ai campioni dell'insieme non etichettato utilizzando un modello addestrato sulla combinazione dei campioni etichettati e di eventuali campioni precedentemente pseudo-etichettati, e ripetendo iterativamente questo processo in un ciclo di auto-addestramento. I metodi attuali sembrano aver abbandonato questo approccio a favore dei metodi di regolarizzazione per consistenza, che addestrano i modelli con una combinazione di diversi tipi di perdite auto-supervisionate sui campioni non etichettati e di perdite supervisionate standard sui campioni etichettati. Dimostriamo empiricamente che il pseudo-labeling può di fatto essere competitivo con lo stato dell'arte, pur essendo più resiliente ai campioni fuori distribuzione presenti nell'insieme non etichettato. Identifichiamo due fattori chiave che consentono al pseudo-labeling di ottenere risultati così notevoli: (1) l'applicazione dei principi del curriculum learning e (2) l'evitare il concept drift riavviando i parametri del modello prima di ogni ciclo di auto-addestramento. Otteniamo un'accuratezza del 94,91% su CIFAR-10 utilizzando solo 4.000 campioni etichettati e un'accuratezza top-1 del 68,87% su Imagenet-ILSVRC utilizzando solo il 10% dei campioni etichettati. Il codice è disponibile su https://github.com/uvavision/Curriculum-Labeling

dettagli

commento: In the 35th AAAI Conference on Artificial Intelligence. AAAI 2021

citazione

@inproceedings{cascantebonilla2021curriculum,
  title = {Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning},
  author = {Cascante-Bonilla, Paola and Tan, Fuwen and Qi, Yanjun and Ordonez, Vicente},
  year = {2021},
  booktitle = {The Thirty-Fifth AAAI Conference on Artificial Intelligence. AAAI 2021},
  url = {https://arxiv.org/abs/2001.06001},
}