Generative Visual Instruction Tuning

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← 논문 목록으로 돌아가기

preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

arXiv:2406.11262 June 2024.

논문 github pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교와 Google DeepMind의 연구자들은 이미지를 이해하고, 새로운 그림을 생성하며, 기존 이미지를 편집할 수 있으면서도 어떤 단일 능력에서도 성능을 잃지 않는 멀티모달 AI 시스템인 GenLLaVA를 개발했다. 이는 이 분야에서 지속적인 과제였다. 연구팀은 전통적인 다단계 과정 대신 GPT-4V에서 자동으로 생성된 instruction 데이터를 사용하는 새로운 단일 단계 학습 접근법을 통해 세 가지 기존 AI 모델을 결합했다. 테스트 결과 GenLLaVA는 시각 이해 벤치마크 전반에서 GILL과 Unified-IO 2 같은 유사 모델을 능가하면서도 경쟁력 있는 이미지 생성 품질을 유지했다. 이 돌파구는 AI 시스템이 여러 시각 능력을 동시에 성공적으로 균형 잡을 수 있음을 입증하며, 답변에서부터 다양한 시각 작업을 처리할 수 있는 더 다재다능한 디지털 어시스턴트의 길을 연다.

초록

우리는 생성 및 이미지 편집 작업에 대한 추가 지원과 함께 대규모 멀티모달 모델의 zero-shot 능력을 향상시키기 위해 자동으로 생성된 instruction-following 데이터를 사용할 것을 제안한다. 우리는 GPT-4V와 이미지 생성 및 편집을 위한 기존 데이터셋을 사용하여 새로운 멀티모달 instruction-following 세트를 큐레이션함으로써 이를 달성한다. 이 instruction 세트와 시각 이해 작업을 위한 기존 LLaVA-Finetune instruction 세트를 사용하여, 우리는 Generative Large Language and Visual Assistant인 GenLLaVA를 생산한다. GenLLaVA는 instruction 미세조정을 통해 세 가지 유형의 대규모 사전학습 모델을 결합하는 전략을 통해 구축된다: 언어 모델링을 위한 Mistral, 이미지-텍스트 매칭을 위한 SigLIP, 그리고 text-to-image 생성을 위한 StableDiffusion이다. 우리 모델은 LLaVA보다 우수한 시각 이해 능력을 입증하며, 추가로 Unified-IO 2와 같은 네이티브 멀티모달 모델과 경쟁력 있는 결과를 보여주어, 기존 멀티모달 모델을 효과적으로 재사용함으로써 고급 범용 시각 어시스턴트를 구축하는 길을 연다. 우리는 이 분야의 추가 연구와 응용을 촉진하기 위해 데이터셋, 코드베이스, 모델 체크포인트를 오픈소스로 공개한다.

세부 정보

비고: Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

인용

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}