Generative Visual Instruction Tuning

Jefferson Hernandez; Ruben Villegas; Vicente Ordonez

← 論文一覧に戻る

preprint

Generative Visual Instruction Tuning

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez.

arXiv:2406.11262 June 2024.

論文 github pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

ライス大学とGoogle DeepMindの研究者らは、画像を理解し、新しい絵を生成し、既存の絵を編集することができ、しかもいずれの単一能力においても性能を失わないマルチモーダルAIシステムであるGenLLaVAを開発した。これはこの分野における根強い課題である。研究チームは、従来の多段階プロセスではなく、GPT-4Vから自動生成された指示データを用いた新しい単一段階の訓練アプローチを通じて、三つの既存のAIモデルを組み合わせた。検証では、GenLLaVAが競争力のある画像生成品質を維持しながら、視覚理解ベンチマーク全体でGILLやUnified-IO 2のような類似モデルを上回ることが示された。この画期的な成果は、AIシステムが複数の視覚能力を同時にうまく両立させ得ることを実証しており、回答から多様な視覚タスクを扱える、より汎用性の高いデジタルアシスタントへの道を切り開いている。

要旨

我々は、自動生成された指示追従データを用いて、生成および画像編集タスクへの追加サポートを備えた大規模マルチモーダルモデルのゼロショット能力を向上させることを提案する。これを、GPT-4Vと画像生成および編集のための既存データセットを用いて新しいマルチモーダル指示追従セットを選別することで達成する。この指示セットと視覚理解タスクのための既存のLLaVA-Finetune指示セットを用いて、我々はGenLLaVA、すなわち生成型の大規模言語・視覚アシスタントを生み出す。GenLLaVAは、指示によるファインチューニングを通じて三種類の大規模事前学習モデルを組み合わせる戦略によって構築される。すなわち、言語モデリングのためのMistral、画像テキスト照合のためのSigLIP、テキストから画像への生成のためのStableDiffusionである。我々のモデルはLLaVAを上回る視覚理解能力を実証し、加えてUnified-IO 2のようなネイティブのマルチモーダルモデルと競争力のある結果を示し、既存のマルチモーダルモデルを効果的に再利用することで高度な汎用視覚アシスタントを構築する道を切り開く。この分野におけるさらなる研究と応用を促進するため、我々はデータセット、コードベース、モデルのチェックポイントをオープンソース化する。

詳細

コメント: Add more results using task tokens, expand the introduction and related work FIX: error in LLM-as-judge evaluation that was over-inflating the results

引用

@article{hernandez2024generative,
  title = {Generative Visual Instruction Tuning},
  author = {Hernandez, Jefferson and Villegas, Ruben and Ordonez, Vicente},
  year = {2024},
  journal = {arXiv preprint arXiv:2406.11262},
  url = {https://arxiv.org/abs/2406.11262},
}