Improving Large Vision and Language Models by Learning from a Panel of Peers
publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.
International Conference on Computer Vision. ICCV 2025. Honolulu, HI.
Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende der Rice University und von Adobe Research haben eine neue Trainingstechnik für KI-Vision-Language-Modelle entwickelt, die den teuren und zeitaufwändigen Prozess der Sammlung von von Menschen beschrifteten Feedback-Daten umgeht. Das System, genannt Panel-of-Peers (PoP), funktioniert, indem es eine kleine Gruppe ähnlicher KI-Modelle zusammenstellt — in diesem Fall drei Varianten des LLaVA-Modells, die auf unterschiedlichen zugrunde liegenden Sprachmodellen aufbauen — und sie die Antworten der jeweils anderen auf visuelle Fragen bewerten lässt, anstatt sich auf menschliche Annotatoren oder ein einzelnes leistungsfähigeres "Lehrer"-Modell zu verlassen. Jedes Modell in der Gruppe generiert Kandidatenantworten auf Bild-Frage-Paare aus einem unbeschrifteten Datensatz, die anderen Modelle bewerten diese Antworten über Dimensionen wie Hilfreichkeit und Korrektheit hinweg, und die daraus resultierenden geordneten Paare werden verwendet, um alle Modelle der Gruppe durch eine dreimal wiederholte iterative Schleife feinabzustimmen. Tests über 15 standardmäßige Vision-Language-Benchmarks hinweg, die Aufgaben vom Lesen von Diagrammen und OCR bis hin zu mathematischem Schlussfolgern und Halluzinationserkennung abdecken, hoben den durchschnittlichen Wert des Modell-Panels von 48 % auf 57 % an — ein Gewinn, der nach Angaben der Forschenden das übersteigt, was vergleichbare Methoden mit von Menschen kuratierten oder maschinell erzeugten Präferenzdaten bei ähnlichem Datenumfang erreicht haben. Das Team zeigte außerdem, dass ein Modell, das absichtlich durch das Entfernen des Großteils seiner OCR-Trainingsdaten geschwächt wurde, diese Fähigkeit wiedererlangen konnte, indem es von Peers lernte, die sie behalten hatten, was nahelegt, dass das Framework spezifische Fähigkeiten zwischen Modellen übertragen kann und nicht nur die allgemeine Leistung verbessert. Die Arbeit ist von Bedeutung, weil die Erzeugung menschlicher Präferenzdaten für multimodale KI nach wie vor kostspielig und schwer zu skalieren ist und Selbstverbesserungsmethoden, die sich auf ein einzelnes Modell stützen, das seine eigenen Ausgaben bewertet, dazu neigen, bestehende Fehler zu verstärken; die Verwendung einer vielfältigen Gruppe von etwa gleich starken Modellen, die sich gegenseitig bewerten, scheint dieses Problem zu verringern, ohne den Zugang zu einem viel größeren, teureren Spitzenmodell als Supervisor zu erfordern.

Zusammenfassung

Traditionelle Ausrichtungsmethoden für Large Vision and Language Models (LVLMs) stützen sich in erster Linie auf von Menschen kuratierte Präferenzdaten. Von Menschen erzeugte Präferenzdaten sind kostspielig; maschinell erzeugte Präferenzdaten sind in ihrer Qualität begrenzt; und selbstüberwachte Präferenzdaten führen oft Halluzinationen ein. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Panel-of-Peers-Lernframework vor, das vom kollaborativen Lernen unter Menschen inspiriert ist. Dieser Ansatz nutzt ein Panel von LVLMs, die jeweils durch einen iterativen Selbstverbesserungsprozess ihre kollektiven Ausgaben bewerten und daraus lernen. Indem wir ein Peer-Review-System simulieren, generieren, bewerten und verfeinern unsere Modelle Ausgaben als Reaktion auf eine kuratierte Menge von Prompts und ahmen so eine Lernumgebung im Klassenzimmer nach. Wir zeigen, dass diese Methodik die Modellleistung verbessert, ohne umfangreiche von Menschen beschriftete Datensätze zu erfordern. Unsere Experimente zeigen eine deutliche Verbesserung über mehrere Benchmarks hinweg und demonstrieren das Potenzial von Peer-Bewertungen als skalierbare Alternative zur selbstüberwachten Ausrichtung. Bemerkenswerterweise zeigen wir, dass Panel-of-Peers den durchschnittlichen Wert über fünfzehn Benchmarks von 48 % auf 57 % erhöht.

Details

Anmerkung
Accepted at ICCV 2025

Zitation

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}