Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez; Jing Shi; Simon Jenni; Vicente Ordonez; Kushal Kafle

← 論文一覧に戻る

publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.

International Conference on Computer Vision. ICCV 2025. Honolulu, HI.

論文 pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

Rice大学とAdobe Researchの研究者らは、人間がラベル付けしたフィードバックデータを収集するという高コストで時間のかかるプロセスを回避する、AI視覚言語モデルのための新しい学習手法を開発しました。Panel-of-Peers（PoP）と呼ばれるこのシステムは、類似したAIモデルの小グループ（この場合、異なる基盤言語モデル上に構築されたLLaVAモデルの3つのバリアント）を集め、人間のアノテーターや単一のより強力な「教師」モデルに依存するのではなく、それらに視覚的質問に対する互いの回答を採点させることで機能します。グループ内の各モデルは、ラベルなしデータセットから取得した画像質問ペアに対する候補応答を生成し、他のモデルがそれらの応答を有用性や正確性といった次元にわたって採点し、結果として得られたランク付けされたペアを使用して、3回繰り返される反復ループを通じてグループ内のすべてのモデルをファインチューニングします。チャート読み取りやOCRから数学的推論やハルシネーション検出までのタスクをカバーする15の標準的な視覚言語ベンチマークにわたるテストでは、本アプローチはモデルパネルの平均スコアを48%から57%に引き上げました。研究者らは、この向上が、人間がキュレーションした、または機械が生成した選好データを使用する同等の手法が同様のデータ規模で達成したものを上回ると述べています。チームはまた、OCR学習データの大部分を取り除くことで意図的に能力を損なわせたモデルが、それを保持していた仲間から学習することでその能力を回復できることも示し、本フレームワークが、単に全般的な性能を向上させるだけでなく、モデル間で特定のスキルを転移できることを示唆しました。本研究が重要なのは、マルチモーダルAIのための人間の選好データの作成が依然として高コストでスケールが難しく、単一のモデルが自身の出力を評価することに依存する自己改善手法は既存の誤りを強化する傾向があるためです。互いを相互評価するためにほぼ同等の強さの多様なモデルのグループを使用することは、はるかに大規模で高コストなフロンティアモデルを監督者としてアクセスする必要なしに、その問題を軽減するように見えます。

要旨

大規模視覚言語モデル（LVLM）の従来のアライメント手法は、主に人間がキュレーションした選好データに依存しています。人間が生成した選好データは高コストであり、機械が生成した選好データは品質が限られており、自己教師あり選好データはしばしばハルシネーションを導入します。これらの限界を克服するために、私たちは人間同士の協調学習に着想を得た、新しいPanel-of-Peers学習フレームワークを提案します。このアプローチは、LVLMのパネルを活用し、各モデルが反復的な自己改善プロセスを通じて、それらの集合的な出力を評価し、そこから学習します。ピアレビューシステムをシミュレートすることで、私たちのモデルは、キュレーションされたプロンプトのセットに応答して出力を生成し、評価し、洗練させ、教室での学習環境を模倣します。私たちは、この方法論が広範な人間がラベル付けしたデータセットを必要とせずにモデルの性能を向上させることを実証します。私たちの実験は複数のベンチマークにわたって大幅な改善を示し、自己教師ありアライメントに対するスケーラブルな代替手段としてのピア評価の可能性を実証しています。特に、Panel-of-Peersが15のベンチマークにおける平均スコアを48%から57%に向上させることを示します。

詳細

コメント: Accepted at ICCV 2025

引用

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}