Generative Visual Instruction Tuning
preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.
arXiv:2406.11262 June 2024.
Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de Rice University et de Google DeepMind ont développé GenLLaVA, un système d'IA multimodal capable de comprendre des images, de générer de nouvelles images et d'éditer des images existantes sans perdre en performance dans aucune capacité individuelle — un défi persistant dans le domaine. L'équipe a combiné trois modèles d'IA existants au moyen d'une nouvelle approche d'entraînement en une seule étape utilisant des données d'instructions générées automatiquement par GPT-4V, plutôt que le processus traditionnel en plusieurs étapes. Les tests ont montré que GenLLaVA surpassait des modèles similaires comme GILL et Unified-IO 2 sur les bancs d'essai de compréhension visuelle tout en maintenant une qualité de génération d'images compétitive. Cette avancée démontre que les systèmes d'IA peuvent équilibrer avec succès plusieurs capacités visuelles simultanément, ouvrant la voie à des assistants numériques plus polyvalents capables de gérer diverses tâches visuelles, depuis la réponse

résumé

Nous proposons d'utiliser des données de suivi d'instructions générées automatiquement pour améliorer les capacités zero-shot d'un grand modèle multimodal, avec une prise en charge supplémentaire des tâches génératives et d'édition d'images. Nous y parvenons en constituant un nouvel ensemble multimodal de suivi d'instructions à l'aide de GPT-4V et de jeux de données existants pour la génération et l'édition d'images. En utilisant cet ensemble d'instructions ainsi que l'ensemble d'instructions LLaVA-Finetune existant pour les tâches de compréhension visuelle, nous produisons GenLLaVA, un grand assistant génératif de langage et de vision. GenLLaVA est construit selon une stratégie qui combine trois types de grands modèles préentraînés par ajustement sur instructions : Mistral pour la modélisation du langage, SigLIP pour la correspondance image-texte et StableDiffusion pour la génération texte-image. Notre modèle démontre des capacités de compréhension visuelle supérieures à celles de LLaVA et présente en outre des résultats compétitifs avec des modèles multimodaux natifs tels qu'Unified-IO 2, ouvrant la voie à la construction d'assistants visuels avancés à usage général par une réutilisation efficace des modèles multimodaux existants. Nous mettons en libre accès notre jeu de données, notre base de code et nos points de contrôle de modèle afin de favoriser de nouvelles recherches et applications dans ce domaine.

détails

commentaire
Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

citation

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}