Generative Visual Instruction Tuning

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← torna alle pubblicazioni

preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

arXiv:2406.11262 June 2024.

articolo github pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University e di Google DeepMind hanno sviluppato GenLLaVA, un sistema di IA multimodale in grado di comprendere immagini, generare nuove figure e modificare quelle esistenti senza perdere prestazioni in alcuna singola capacità — una sfida persistente nel campo. Il team ha combinato tre modelli di IA esistenti attraverso un innovativo approccio di addestramento a stadio singolo utilizzando dati di istruzioni generati automaticamente da GPT-4V, anziché il tradizionale processo a più stadi. I test hanno mostrato che GenLLaVA ha superato modelli simili come GILL e Unified-IO 2 nei benchmark di comprensione visiva mantenendo al contempo una qualità di generazione di immagini competitiva. Questo risultato dimostra che i sistemi di IA possono bilanciare con successo molteplici capacità visive simultaneamente, aprendo la strada ad assistenti digitali più versatili in grado di gestire diversi compiti visivi, dal rispondere

abstract

Proponiamo di utilizzare dati di instruction-following generati automaticamente per migliorare le capacità zero-shot di un grande modello multimodale con un supporto aggiuntivo per compiti generativi e di editing di immagini. Otteniamo questo curando un nuovo insieme multimodale di instruction-following utilizzando GPT-4V e dataset esistenti per la generazione e l'editing di immagini. Utilizzando questo insieme di istruzioni e l'esistente insieme di istruzioni LLaVA-Finetune per i compiti di comprensione visiva, produciamo GenLLaVA, un Generative Large Language and Visual Assistant. GenLLaVA è costruito attraverso una strategia che combina tre tipi di grandi modelli preaddestrati tramite instruction finetuning: Mistral per il modeling del linguaggio, SigLIP per l'abbinamento immagine-testo e StableDiffusion per la generazione text-to-image. Il nostro modello dimostra capacità di comprensione visiva superiori a LLaVA e mostra inoltre risultati competitivi con modelli multimodali nativi come Unified-IO 2, aprendo la strada alla costruzione di avanzati assistenti visivi general-purpose riutilizzando in modo efficace i modelli multimodali esistenti. Rendiamo open-source il nostro dataset, la base di codice e i checkpoint del modello per favorire ulteriore ricerca e applicazione in questo dominio.

dettagli

commento: Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

citazione

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}