Generative Visual Instruction Tuning

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← zurück zu den Publikationen

preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

arXiv:2406.11262 June 2024.

Artikel github pdf BibTeX-Quelltext

Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende an der Rice University und bei Google DeepMind haben GenLLaVA entwickelt, ein multimodales KI-System, das Bilder verstehen, neue Bilder generieren und bestehende bearbeiten kann, ohne in einer einzelnen Fähigkeit an Leistung zu verlieren – eine anhaltende Herausforderung auf diesem Gebiet. Das Team kombinierte drei bestehende KI-Modelle über einen neuartigen einstufigen Trainingsansatz unter Verwendung automatisch generierter Instruktionsdaten von GPT-4V statt des traditionellen mehrstufigen Verfahrens. Tests zeigten, dass GenLLaVA ähnliche Modelle wie GILL und Unified-IO 2 über Benchmarks für visuelles Verständnis hinweg übertraf und dabei eine wettbewerbsfähige Bildgenerierungsqualität beibehielt. Dieser Durchbruch zeigt, dass KI-Systeme erfolgreich mehrere visuelle Fähigkeiten gleichzeitig ausbalancieren können, und ebnet den Weg für vielseitigere digitale Assistenten, die diverse visuelle Aufgaben bewältigen könnten, vom Beantworten

Zusammenfassung

Wir schlagen vor, automatisch generierte instruktionsbefolgende Daten zu verwenden, um die Zero-Shot-Fähigkeiten eines großen multimodalen Modells zu verbessern, mit zusätzlicher Unterstützung für generative und Bildbearbeitungsaufgaben. Wir erreichen dies, indem wir einen neuen multimodalen instruktionsbefolgenden Datensatz mithilfe von GPT-4V und bestehenden Datensätzen für Bildgenerierung und -bearbeitung kuratieren. Unter Verwendung dieses Instruktionsdatensatzes und des bestehenden LLaVA-Finetune-Instruktionsdatensatzes für visuelle Verständnisaufgaben erstellen wir GenLLaVA, einen Generative Large Language and Visual Assistant. GenLLaVA wird durch eine Strategie aufgebaut, die drei Typen großer vortrainierter Modelle durch instruktionsbasiertes Fine-Tuning kombiniert: Mistral für die Sprachmodellierung, SigLIP für das Bild-Text-Matching und StableDiffusion für die Text-zu-Bild-Generierung. Unser Modell demonstriert visuelle Verständnisfähigkeiten, die denen von LLaVA überlegen sind, und zeigt darüber hinaus wettbewerbsfähige Ergebnisse mit nativen multimodalen Modellen wie Unified-IO 2, was den Weg zum Aufbau fortschrittlicher universeller visueller Assistenten durch effektive Wiederverwendung bestehender multimodaler Modelle ebnet. Wir stellen unseren Datensatz, unsere Codebasis und unsere Modell-Checkpoints als Open Source zur Verfügung, um weitere Forschung und Anwendung in diesem Bereich zu fördern.

Details

Anmerkung: Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

Zitation

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}