Generative Visual Instruction Tuning
preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.
arXiv:2406.11262 June 2024.
Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University и Google DeepMind разработали GenLLaVA — мультимодальную систему искусственного интеллекта, способную понимать изображения, генерировать новые картинки и редактировать существующие, не теряя производительности ни в одной из этих способностей, что является устойчивой проблемой в данной области. Команда объединила три существующие модели искусственного интеллекта с помощью нового одноэтапного подхода к обучению, используя автоматически сгенерированные данные инструкций от GPT-4V вместо традиционного многоэтапного процесса. Тестирование показало, что GenLLaVA превосходит схожие модели, такие как GILL и Unified-IO 2, по бенчмаркам визуального понимания, сохраняя при этом конкурентоспособное качество генерации изображений. Этот прорыв демонстрирует, что системы искусственного интеллекта могут успешно балансировать несколько визуальных способностей одновременно, прокладывая путь к более универсальным цифровым ассистентам, способным справляться с разнообразными визуальными задачами — от ответов

аннотация

Мы предлагаем использовать автоматически сгенерированные данные для следования инструкциям, чтобы улучшить zero-shot возможности большой мультимодальной модели с дополнительной поддержкой задач генерации и редактирования изображений. Мы достигаем этого, формируя новый мультимодальный набор данных для следования инструкциям с помощью GPT-4V и существующих наборов данных для генерации и редактирования изображений. Используя этот набор инструкций и существующий набор инструкций LLaVA-Finetune для задач визуального понимания, мы создаём GenLLaVA — Generative Large Language and Visual Assistant. GenLLaVA построена с помощью стратегии, объединяющей три типа больших предобученных моделей через дообучение на инструкциях: Mistral для языкового моделирования, SigLIP для сопоставления изображений и текста и StableDiffusion для генерации изображений из текста. Наша модель демонстрирует возможности визуального понимания, превосходящие LLaVA, а также показывает конкурентоспособные результаты по сравнению с нативными мультимодальными моделями, такими как Unified-IO 2, прокладывая путь к созданию продвинутых универсальных визуальных ассистентов за счёт эффективного повторного использования существующих мультимодальных моделей. Мы открываем исходный код нашего набора данных, кодовой базы и контрольных точек модели, чтобы способствовать дальнейшим исследованиям и приложениям в этой области.

подробности

комментарий
Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

цитирование

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}