Generative Visual Instruction Tuning
Resumo do comunicado de imprensa
Pesquisadores da Rice University e do Google DeepMind desenvolveram o GenLLaVA, um sistema de IA multimodal capaz de entender imagens, gerar novas figuras e editar imagens existentes sem perder desempenho em nenhuma capacidade individual — um desafio persistente na área. A equipe combinou três modelos de IA existentes por meio de uma nova abordagem de treinamento em estágio único usando dados de instruções gerados automaticamente pelo GPT-4V, em vez do tradicional processo de múltiplos estágios. Os testes mostraram que o GenLLaVA superou modelos semelhantes, como GILL e Unified-IO 2, em benchmarks de compreensão visual, mantendo uma qualidade competitiva de geração de imagens. Esse avanço demonstra que sistemas de IA podem equilibrar com sucesso múltiplas capacidades visuais simultaneamente, abrindo caminho para assistentes digitais mais versáteis que poderiam lidar com diversas tarefas visuais, desde responder
resumo
Propomos usar dados de seguimento de instruções gerados automaticamente para aprimorar as capacidades de zero-shot de um modelo multimodal de grande porte com suporte adicional para tarefas generativas e de edição de imagens. Conseguimos isso curando um novo conjunto multimodal de seguimento de instruções usando o GPT-4V e conjuntos de dados existentes para geração e edição de imagens. Usando esse conjunto de instruções e o conjunto de instruções LLaVA-Finetune existente para tarefas de compreensão visual, produzimos o GenLLaVA, um Assistente Visual e de Linguagem de Grande Porte Generativo. O GenLLaVA é construído por meio de uma estratégia que combina três tipos de grandes modelos pré-treinados via ajuste fino por instruções: Mistral para modelagem de linguagem, SigLIP para correspondência imagem-texto e StableDiffusion para geração de texto para imagem. Nosso modelo demonstra capacidades de compreensão visual superiores às do LLaVA e, adicionalmente, demonstra resultados competitivos com modelos multimodais nativos como o Unified-IO 2, abrindo caminho para a construção de assistentes visuais avançados de propósito geral por meio da reutilização eficaz de modelos multimodais existentes. Disponibilizamos como código aberto nosso conjunto de dados, base de código e checkpoints de modelo para fomentar mais pesquisas e aplicações nesse domínio.
detalhes
citação
@article{hernandez2024generative,
title = {Generative Visual Instruction Tuning},
author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
year = {2024},
journal = {arXiv preprint arXiv:2406.11262},
url = {https://arxiv.org/abs/2406.11262},
}