Feedback-prop: Convolutional Neural Network Inference under Partial Evidence
Sintesi del comunicato stampa
I ricercatori della University of Virginia e di CyberAgent hanno sviluppato una tecnica che consente alle reti neurali di riconoscimento delle immagini già esistenti di formulare previsioni migliori quando alcune informazioni su una foto sono già note in anticipo. Il metodo, chiamato feedback-prop, colma un divario tra il modo in cui i sistemi di visione artificiale vengono tipicamente testati — usando solo l'input visivo — e il modo in cui vengono spesso utilizzati nella pratica, dove sono frequentemente disponibili testo circostante, dati GPS, tag degli utenti o altri indizi contestuali. Anziché riaddestrare una rete per incorporare tali informazioni aggiuntive, i ricercatori hanno scoperto di poter invece reimmettere le etichette note attraverso una rete già addestrata durante la fase di inferenza stessa, regolando le attivazioni interne della rete finché le previsioni per le restanti etichette sconosciute non migliorano. Hanno testato due varianti dell'approccio — una che aggiorna gli strati in sequenza e una che inietta piccole variabili correttive in più strati simultaneamente — su diversi compiti, tra cui l'identificazione di oggetti nelle immagini quando alcune etichette sono già note, la previsione di categorie di scena a grana fine quando vengono fornite categorie a grana grossa, e la generazione di didascalie per immagini quando sono disponibili le annotazioni degli oggetti. In tutti i compiti e in diverse architetture di rete standard, tra cui VGG-16 e ResNet, l'aggiunta di evidenza parziale ha migliorato costantemente l'accuratezza, con guadagni relativi compresi tra circa il 10 e il 13 percento a seconda del compito. È degno di nota che la tecnica non richiede alcuna modifica all'addestramento del modello originale e funziona con una combinazione arbitraria di etichette note e sconosciute, rendendola ampiamente pratica per scenari di impiego reali in cui le immagini raramente arrivano prive di un contesto associato.
abstract
Proponiamo una procedura di inferenza per reti neurali convoluzionali profonde (CNN) quando è disponibile un'evidenza parziale. Il nostro metodo consiste in un approccio generale di propagazione basato sul feedback (feedback-prop) che incrementa l'accuratezza delle previsioni per un insieme arbitrario di etichette target sconosciute, quando sono noti i valori di un insieme arbitrario e non sovrapposto di etichette target. Mostriamo che i modelli esistenti addestrati in un contesto multi-etichetta o multi-task possono trarre immediato vantaggio da feedback-prop senza alcun riaddestramento o fine-tuning. La nostra procedura di inferenza feedback-prop è generale, semplice, affidabile e funziona su diversi compiti impegnativi di riconoscimento visivo. Presentiamo due varianti di feedback-prop basate su aggiornamenti iterativi a livello di strato (layer-wise) e residuali. Sperimentiamo utilizzando diversi modelli multi-task e mostriamo che feedback-prop è efficace in tutti. I nostri risultati svelano una proprietà dinamica delle CNN profonde finora non documentata ma interessante. Presentiamo inoltre un approccio tecnico associato che sfrutta questa proprietà per l'inferenza in presenza di evidenza parziale in compiti generali di riconoscimento visivo.
dettagli
citazione
@inproceedings{wang2018feedback,
title = {Feedback-prop: Convolutional Neural Network Inference under Partial Evidence},
author = {Wang, Tianlu and Yamaguchi, Kota and Ordonez, Vicente},
year = {2018},
booktitle = {Conference on Computer Vision and Pattern Recognition. CVPR 2018},
url = {https://arxiv.org/abs/1710.08049},
}