新闻稿摘要
莱斯大学和 Google DeepMind 的研究人员开发了 GenLLaVA,一个能够理解图像、生成新图片并编辑现有图片,同时不损失任何单项能力的多模态 AI 系统——这是该领域长期存在的难题。团队通过一种新颖的单阶段训练方法,利用来自 GPT-4V 的自动生成指令数据,将三个现有 AI 模型相结合,而非采用传统的多阶段流程。测试表明,GenLLaVA 在视觉理解基准上优于 GILL 和 Unified-IO 2 等类似模型,同时保持了具有竞争力的图像生成质量。这一突破表明,AI 系统能够成功地同时平衡多种视觉能力,为更通用的数字助手铺平了道路,这类助手或能处理从回答问题在内的各类视觉任务。
摘要
我们提出使用自动生成的指令遵循(instruction-following)数据来提升大型多模态模型的零样本能力,并额外支持生成式和图像编辑任务。我们通过使用 GPT-4V 和现有的图像生成与编辑数据集,策划了一个新的多模态指令遵循集合来实现这一目标。利用该指令集以及现有的用于视觉理解任务的 LLaVA-Finetune 指令集,我们构建了 GenLLaVA,一个生成式大型语言与视觉助手(Generative Large Language and Visual Assistant)。GenLLaVA 通过一种将三类大型预训练模型经由指令微调相结合的策略构建而成:用于语言建模的 Mistral、用于图文匹配的 SigLIP,以及用于文本到图像生成的 StableDiffusion。我们的模型展现出优于 LLaVA 的视觉理解能力,并且与 Unified-IO 2 等原生多模态模型相比也取得了具有竞争力的结果,为通过有效复用现有多模态模型来构建先进的通用视觉助手铺平了道路。我们开源了数据集、代码库和模型检查点,以促进该领域的进一步研究和应用。
详情
引用
@article{hernandez2024generative,
title = {Generative Visual Instruction Tuning},
author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
year = {2024},
journal = {arXiv preprint arXiv:2406.11262},
url = {https://arxiv.org/abs/2406.11262},
}