SimVQA: Exploring Simulated Environments for Visual Question Answering.
Sintesi del comunicato stampa
Ricercatori di Rice University, MIT-IBM Watson AI Lab e University of Virginia hanno trovato un modo per usare immagini sintetiche generate al computer per insegnare ai sistemi di visual question-answering (VQA) competenze che faticano ad apprendere dalle sole fotografie del mondo reale. Il problema centrale affrontato dal team è che costruire grandi dataset VQA a partire da immagini reali è costoso, solleva problemi di privacy e limita la varietà di scenari da cui un modello può apprendere. Per aggirare questo ostacolo, i ricercatori hanno costruito due nuovi dataset sintetici — Hypersim-VQA e ThreeDWorld-VQA — ampliando un dataset esistente di scene 3D fotorealistiche e usando una piattaforma di simulazione fisica per generare automaticamente immagini abbinate a insiemi di domande e risposte che coprono conteggio, colore, esistenza degli oggetti e relazioni spaziali. I loro esperimenti hanno mostrato che un modello VQA addestrato del tutto senza domande di conteggio provenienti da dati reali poteva comunque imparare a contare oggetti in immagini reali quando, durante l'addestramento, gli venivano forniti solo esempi sintetici di conteggio, dimostrando un trasferimento significativo nonostante il notevole divario visivo tra immagini renderizzate e fotografiche. Il team ha inoltre sviluppato una tecnica chiamata Feature Swapping (F-SWAP), che evita gli approcci tradizionali di adattamento del dominio come l'addestramento avversario semplicemente scambiando le rappresentazioni delle caratteristiche a livello di oggetto tra immagini reali e sintetiche durante l'addestramento. Questo metodo ha superato alternative più complesse, tra cui l'adattamento avversario del dominio e l'allineamento tramite Maximum Mean Discrepancy, evitando al contempo l'instabilità associata all'addestramento avversario generativo. Il lavoro è importante perché offre una via relativamente economica e sicura per la privacy per ampliare i dati di addestramento dell'IA e suggerisce che gli ambienti sintetici potrebbero svolgere un ruolo pratico nel colmare le lacune dei dataset del mondo reale per i sistemi di IA multimodale.
abstract
I lavori esistenti sul VQA esplorano la data augmentation per ottenere una migliore generalizzazione perturbando le immagini del dataset o modificando le domande e le risposte esistenti. Sebbene questi metodi mostrino buone prestazioni, la diversità delle domande e delle risposte è vincolata dall'insieme di immagini disponibile. In questo lavoro esploriamo l'uso di dati sintetici generati al computer per controllare completamente lo spazio visivo e linguistico, consentendoci di fornire scenari più diversificati. Quantifichiamo l'effetto dei dati sintetici nei benchmark VQA del mondo reale e in che misura essi producano risultati che generalizzano ai dati reali. Sfruttando piattaforme di simulazione 3D e fisica, forniamo una pipeline per generare dati sintetici al fine di ampliare e sostituire domande e risposte specifiche per tipo senza rischiare l'esposizione di dati sensibili o personali eventualmente presenti nelle immagini reali. Offriamo un'analisi completa ampliando al contempo i dataset iperrealistici esistenti affinché possano essere usati per il VQA. Proponiamo inoltre il Feature Swapping (F-SWAP) — in cui scambiamo casualmente le caratteristiche a livello di oggetto durante l'addestramento per rendere un modello VQA più invariante rispetto al dominio. Mostriamo che F-SWAP è efficace nel potenziare un dataset VQA di immagini reali già esistente senza compromettere l'accuratezza nel rispondere alle domande presenti nel dataset.
dettagli
citazione
@inproceedings{cascantebonilla2022simvqa,
title = {SimVQA: Exploring Simulated Environments for Visual Question Answering.},
author = {Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio and Ordonez, Vicente},
year = {2022},
booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2022},
url = {https://arxiv.org/abs/2203.17219},
}