Generative Visual Instruction Tuning
Sintesi del comunicato stampa
I ricercatori della Rice University e di Google DeepMind hanno sviluppato GenLLaVA, un sistema di IA multimodale in grado di comprendere immagini, generare nuove figure e modificare quelle esistenti senza perdere prestazioni in alcuna singola capacità — una sfida persistente nel campo. Il team ha combinato tre modelli di IA esistenti attraverso un innovativo approccio di addestramento a stadio singolo utilizzando dati di istruzioni generati automaticamente da GPT-4V, anziché il tradizionale processo a più stadi. I test hanno mostrato che GenLLaVA ha superato modelli simili come GILL e Unified-IO 2 nei benchmark di comprensione visiva mantenendo al contempo una qualità di generazione di immagini competitiva. Questo risultato dimostra che i sistemi di IA possono bilanciare con successo molteplici capacità visive simultaneamente, aprendo la strada ad assistenti digitali più versatili in grado di gestire diversi compiti visivi, dal rispondere
abstract
Proponiamo di utilizzare dati di instruction-following generati automaticamente per migliorare le capacità zero-shot di un grande modello multimodale con un supporto aggiuntivo per compiti generativi e di editing di immagini. Otteniamo questo curando un nuovo insieme multimodale di instruction-following utilizzando GPT-4V e dataset esistenti per la generazione e l'editing di immagini. Utilizzando questo insieme di istruzioni e l'esistente insieme di istruzioni LLaVA-Finetune per i compiti di comprensione visiva, produciamo GenLLaVA, un Generative Large Language and Visual Assistant. GenLLaVA è costruito attraverso una strategia che combina tre tipi di grandi modelli preaddestrati tramite instruction finetuning: Mistral per il modeling del linguaggio, SigLIP per l'abbinamento immagine-testo e StableDiffusion per la generazione text-to-image. Il nostro modello dimostra capacità di comprensione visiva superiori a LLaVA e mostra inoltre risultati competitivi con modelli multimodali nativi come Unified-IO 2, aprendo la strada alla costruzione di avanzati assistenti visivi general-purpose riutilizzando in modo efficace i modelli multimodali esistenti. Rendiamo open-source il nostro dataset, la base di codice e i checkpoint del modello per favorire ulteriore ricerca e applicazione in questo dominio.
dettagli
citazione
@article{hernandez2024generative,
title = {Generative Visual Instruction Tuning},
author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
year = {2024},
journal = {arXiv preprint arXiv:2406.11262},
url = {https://arxiv.org/abs/2406.11262},
}