Generative Visual Instruction Tuning
Краткое изложение пресс-релиза
Исследователи из Rice University и Google DeepMind разработали GenLLaVA — мультимодальную систему искусственного интеллекта, способную понимать изображения, генерировать новые картинки и редактировать существующие, не теряя производительности ни в одной из этих способностей, что является устойчивой проблемой в данной области. Команда объединила три существующие модели искусственного интеллекта с помощью нового одноэтапного подхода к обучению, используя автоматически сгенерированные данные инструкций от GPT-4V вместо традиционного многоэтапного процесса. Тестирование показало, что GenLLaVA превосходит схожие модели, такие как GILL и Unified-IO 2, по бенчмаркам визуального понимания, сохраняя при этом конкурентоспособное качество генерации изображений. Этот прорыв демонстрирует, что системы искусственного интеллекта могут успешно балансировать несколько визуальных способностей одновременно, прокладывая путь к более универсальным цифровым ассистентам, способным справляться с разнообразными визуальными задачами — от ответов
аннотация
Мы предлагаем использовать автоматически сгенерированные данные для следования инструкциям, чтобы улучшить zero-shot возможности большой мультимодальной модели с дополнительной поддержкой задач генерации и редактирования изображений. Мы достигаем этого, формируя новый мультимодальный набор данных для следования инструкциям с помощью GPT-4V и существующих наборов данных для генерации и редактирования изображений. Используя этот набор инструкций и существующий набор инструкций LLaVA-Finetune для задач визуального понимания, мы создаём GenLLaVA — Generative Large Language and Visual Assistant. GenLLaVA построена с помощью стратегии, объединяющей три типа больших предобученных моделей через дообучение на инструкциях: Mistral для языкового моделирования, SigLIP для сопоставления изображений и текста и StableDiffusion для генерации изображений из текста. Наша модель демонстрирует возможности визуального понимания, превосходящие LLaVA, а также показывает конкурентоспособные результаты по сравнению с нативными мультимодальными моделями, такими как Unified-IO 2, прокладывая путь к созданию продвинутых универсальных визуальных ассистентов за счёт эффективного повторного использования существующих мультимодальных моделей. Мы открываем исходный код нашего набора данных, кодовой базы и контрольных точек модели, чтобы способствовать дальнейшим исследованиям и приложениям в этой области.
подробности
цитирование
@article{hernandez2024generative,
title = {Generative Visual Instruction Tuning},
author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
year = {2024},
journal = {arXiv preprint arXiv:2406.11262},
url = {https://arxiv.org/abs/2406.11262},
}