ConStruct-VL: Data-Free Continual Structured VL Concepts Learning.

James Seale Smith; Paola Cascante-Bonilla; Assaf Arbelle; Donghyun Kim; Rameswar Panda; David Cox; Diyi Yang; Zsolt Kira; Rogerio Feris; Leonid Karlinsky

publication

ConStruct-VL: Data-Free Continual Structured VL Concepts Learning.

James Seale Smith, Paola Cascante-Bonilla, Assaf Arbelle, Donghyun Kim, Rameswar Panda, David Cox, Diyi Yang, Zsolt Kira, Rogerio Feris, Leonid Karlinsky.

Conf. on Computer Vision and Pattern Recognition CVPR 2023. Vancouver, Canada.

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

Ricercatori del MIT-IBM Watson AI Lab, Georgia Tech, Rice University, IBM Research e Stanford hanno affrontato un problema pratico ma poco esplorato dei grandi modelli di intelligenza artificiale vision-and-language: questi sistemi tendono a faticare nel comprendere concetti relazionali e descrittivi sfumati — come colori, dimensioni, posizioni spaziali e stati degli oggetti — e quando gli ingegneri cercano di correggere una di queste debolezze mettendo a punto il modello su nuovi dati, il modello tende a dimenticare come gestire le debolezze già corrette in precedenza, un fenomeno noto come oblio catastrofico. La situazione è resa più difficile dal fatto che i dati usati per individuare e correggere ciascun problema sono spesso privati e non possono essere conservati o riutilizzati nei cicli di addestramento successivi. Per affrontare la questione, il team ha creato ConStruct-VL, il primo benchmark specificamente progettato per valutare l'apprendimento continuo di questi concetti strutturati visivo-linguistici senza accesso ai dati dei compiti precedenti e senza alcun suggerimento, in fase di test, su quale tipo di concetto venga valutato. Hanno inoltre sviluppato due contributi tecnici complementari: un'architettura Layered-LoRA (LaLo) che impila moduli adattatori leggeri e a basso rango sopra un modello base congelato per ciascun nuovo compito, permettendo al sistema di accedere in modo efficiente al modello di qualsiasi compito precedente durante l'addestramento senza ricaricare i pesi; e un metodo di Adversarial Pseudo-Replay (APR) che usa quei modelli passati per generare esempi di addestramento negativi insidiosi — ad esempio alterando in modo sottile una descrizione testuale per includere una parola che indica un colore incoerente con l'immagine abbinata — successivamente usati per ricordare al modello attuale ciò che aveva appreso in precedenza. Testato sul modello vision-language BLIP attraverso molteplici sequenze di compiti tratte dai dataset Visual Genome e Visual Attributes in the Wild, l'approccio combinato ha ridotto l'oblio medio di circa cinque volte e ha migliorato l'accuratezza finale fino a 6,8 punti percentuali rispetto ai migliori metodi concorrenti di apprendimento continuo data-free, utilizzando solo circa il 2,8 percento dei parametri del modello completo — risultati rilevanti perché suggeriscono una strada percorribile per applicare correzioni in modo continuo ai modelli di IA in implementazioni reali sensibili alla privacy senza degradare i miglioramenti ottenuti in precedenza.

abstract

Di recente, i modelli fondazionali Vision-and-Language (VL) pre-addestrati su larga scala hanno dimostrato capacità notevoli in molti compiti downstream zero-shot, ottenendo risultati competitivi nel riconoscimento di oggetti definiti anche solo da brevi prompt testuali. Tuttavia, è stato anche dimostrato che i modelli VL restano fragili nel ragionamento sui Structured VL Concept (SVLC), come la capacità di riconoscere attributi, stati e relazioni tra oggetti. Ciò porta a errori di ragionamento, che devono essere corretti man mano che si presentano insegnando ai modelli VL le competenze SVLC mancanti; spesso questo deve essere fatto utilizzando dati privati nei quali il problema è stato individuato, il che conduce naturalmente a uno scenario di apprendimento VL continuo data-free (senza task-id). In questo lavoro introduciamo il primo benchmark di Continual Data-Free Structured VL Concepts Learning (ConStruct-VL) e mostriamo che esso risulta impegnativo per molte strategie di apprendimento continuo data-free esistenti. Proponiamo quindi un metodo data-free composto da un nuovo approccio di Adversarial Pseudo-Replay (APR) che genera promemoria avversari dei compiti passati a partire dai modelli dei compiti passati. Per utilizzare questo metodo in modo efficiente, proponiamo anche un'architettura neurale continua ed efficiente nei parametri, Layered-LoRA (LaLo), che consente l'accesso a costo di memoria nullo a tutti i modelli passati durante l'addestramento. Mostriamo che questo approccio supera tutti i metodi data-free fino a circa ~7%, eguagliando persino alcuni livelli di experience-replay (proibitivi per applicazioni in cui la privacy dei dati deve essere preservata). Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/jamessealesmith/ConStruct-VL

dettagli

commento: Accepted by the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023)

citazione

@inproceedings{smith2023construct,
  title = {ConStruct-VL: Data-Free Continual Structured VL Concepts Learning.},
  author = {Smith, James Seale and Cascante-Bonilla, Paola and Arbelle, Assaf and Kim, Donghyun and Panda, Rameswar and Cox, David and Yang, Diyi and Kira, Zsolt and Feris, Rogerio and Karlinsky, Leonid},
  year = {2023},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2023},
  url = {https://arxiv.org/abs/2211.09790},
}