Generative Visual Instruction Tuning

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← voltar às publicações

preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

arXiv:2406.11262 June 2024.

artigo github pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University e do Google DeepMind desenvolveram o GenLLaVA, um sistema de IA multimodal capaz de entender imagens, gerar novas figuras e editar imagens existentes sem perder desempenho em nenhuma capacidade individual — um desafio persistente na área. A equipe combinou três modelos de IA existentes por meio de uma nova abordagem de treinamento em estágio único usando dados de instruções gerados automaticamente pelo GPT-4V, em vez do tradicional processo de múltiplos estágios. Os testes mostraram que o GenLLaVA superou modelos semelhantes, como GILL e Unified-IO 2, em benchmarks de compreensão visual, mantendo uma qualidade competitiva de geração de imagens. Esse avanço demonstra que sistemas de IA podem equilibrar com sucesso múltiplas capacidades visuais simultaneamente, abrindo caminho para assistentes digitais mais versáteis que poderiam lidar com diversas tarefas visuais, desde responder

resumo

Propomos usar dados de seguimento de instruções gerados automaticamente para aprimorar as capacidades de zero-shot de um modelo multimodal de grande porte com suporte adicional para tarefas generativas e de edição de imagens. Conseguimos isso curando um novo conjunto multimodal de seguimento de instruções usando o GPT-4V e conjuntos de dados existentes para geração e edição de imagens. Usando esse conjunto de instruções e o conjunto de instruções LLaVA-Finetune existente para tarefas de compreensão visual, produzimos o GenLLaVA, um Assistente Visual e de Linguagem de Grande Porte Generativo. O GenLLaVA é construído por meio de uma estratégia que combina três tipos de grandes modelos pré-treinados via ajuste fino por instruções: Mistral para modelagem de linguagem, SigLIP para correspondência imagem-texto e StableDiffusion para geração de texto para imagem. Nosso modelo demonstra capacidades de compreensão visual superiores às do LLaVA e, adicionalmente, demonstra resultados competitivos com modelos multimodais nativos como o Unified-IO 2, abrindo caminho para a construção de assistentes visuais avançados de propósito geral por meio da reutilização eficaz de modelos multimodais existentes. Disponibilizamos como código aberto nosso conjunto de dados, base de código e checkpoints de modelo para fomentar mais pesquisas e aplicações nesse domínio.

detalhes

comentário: Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

citação

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}