Generative Visual Instruction Tuning
Resumen de prensa
Investigadores de la Universidad Rice y Google DeepMind han desarrollado GenLLaVA, un sistema de IA multimodal capaz de comprender imágenes, generar nuevas imágenes y editar las existentes sin perder rendimiento en ninguna de sus capacidades individuales, un desafío persistente en este campo. El equipo combinó tres modelos de IA existentes mediante un novedoso enfoque de entrenamiento en una sola etapa, utilizando datos de instrucciones generados automáticamente con GPT-4V, en lugar del proceso tradicional de varias etapas. Las pruebas mostraron que GenLLaVA superó a modelos similares como GILL y Unified-IO 2 en distintos benchmarks de comprensión visual, manteniendo a la vez una calidad competitiva en la generación de imágenes. Este avance demuestra que los sistemas de IA pueden equilibrar con éxito múltiples capacidades visuales de forma simultánea, allanando el camino hacia asistentes digitales más versátiles capaces de abordar tareas visuales diversas, desde responder
resumen
Proponemos utilizar datos de seguimiento de instrucciones generados automáticamente para mejorar las capacidades zero-shot de un modelo multimodal grande, con soporte adicional para tareas generativas y de edición de imágenes. Lo logramos curando un nuevo conjunto multimodal de seguimiento de instrucciones mediante GPT-4V y conjuntos de datos existentes para la generación y edición de imágenes. Usando este conjunto de instrucciones y el conjunto de instrucciones existente LLaVA-Finetune para tareas de comprensión visual, producimos GenLLaVA, un Asistente Visual y de Lenguaje Generativo de gran tamaño (Generative Large Language and Visual Assistant). GenLLaVA se construye mediante una estrategia que combina tres tipos de modelos preentrenados de gran tamaño a través del ajuste fino por instrucciones: Mistral para el modelado del lenguaje, SigLIP para la correspondencia imagen-texto y StableDiffusion para la generación de texto a imagen. Nuestro modelo demuestra capacidades de comprensión visual superiores a LLaVA y, además, muestra resultados competitivos con modelos multimodales nativos como Unified-IO 2, allanando el camino para construir asistentes visuales avanzados de propósito general mediante la reutilización eficaz de modelos multimodales existentes. Publicamos en código abierto nuestro conjunto de datos, base de código y puntos de control del modelo para fomentar la investigación y la aplicación en este dominio.
detalles
cita
@article{hernandez2024generative,
title = {Generative Visual Instruction Tuning},
author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
year = {2024},
journal = {arXiv preprint arXiv:2406.11262},
url = {https://arxiv.org/abs/2406.11262},
}