Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez; Jing Shi; Simon Jenni; Vicente Ordonez; Kushal Kafle

← torna alle pubblicazioni

publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.

International Conference on Computer Vision. ICCV 2025. Honolulu, HI.

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University e di Adobe Research hanno sviluppato una nuova tecnica di addestramento per i modelli di IA visione-linguaggio che aggira il processo costoso e dispendioso in termini di tempo della raccolta di dati di feedback etichettati dall'uomo. Il sistema, chiamato Panel-of-Peers (PoP), funziona assemblando un piccolo gruppo di modelli di IA simili — in questo caso, tre varianti del modello LLaVA costruite su diversi modelli linguistici sottostanti — e facendo loro valutare reciprocamente le risposte a domande visive, anziché affidarsi ad annotatori umani o a un singolo modello "insegnante" più potente. Ogni modello del gruppo genera risposte candidate a coppie immagine-domanda tratte da un dataset non etichettato, gli altri modelli assegnano un punteggio a tali risposte lungo dimensioni come l'utilità e la correttezza, e le coppie ordinate risultanti vengono utilizzate per il fine-tuning di tutti i modelli del gruppo attraverso un ciclo iterativo ripetuto tre volte. Testando su 15 benchmark standard visione-linguaggio che coprono compiti dalla lettura di grafici e OCR al ragionamento matematico e al rilevamento di allucinazioni, l'approccio ha innalzato il punteggio medio del panel di modelli dal 48% al 57% — un guadagno che, osservano i ricercatori, supera quanto ottenuto da metodi comparabili che utilizzano dati di preferenza curati dall'uomo o generati a macchina a scale di dati simili. Il team ha inoltre mostrato che un modello deliberatamente indebolito rimuovendo la maggior parte dei suoi dati di addestramento OCR poteva recuperare tale capacità apprendendo dai pari che l'avevano mantenuta, suggerendo che il framework può trasferire competenze specifiche tra i modelli, non solo migliorare le prestazioni generali. Il lavoro è importante perché produrre dati di preferenza umani per l'IA multimodale rimane costoso e difficile da scalare, e i metodi di auto-miglioramento che si basano su un singolo modello che valuta i propri output tendono a rafforzare gli errori esistenti; utilizzare un gruppo diversificato di modelli di forza all'incirca pari per valutarsi reciprocamente sembra ridurre tale problema senza richiedere l'accesso a un modello di frontiera molto più grande e costoso come supervisore.

abstract

I metodi di allineamento tradizionali per i Large Vision and Language Models (LVLM) si basano principalmente su dati di preferenza curati dall'uomo. I dati di preferenza generati dall'uomo sono costosi; i dati di preferenza generati a macchina sono limitati in qualità; e i dati di preferenza auto-supervisionati introducono spesso allucinazioni. Per superare queste limitazioni, proponiamo un nuovo framework di apprendimento Panel-of-Peers ispirato all'apprendimento collaborativo tra esseri umani. Questo approccio sfrutta un panel di LVLM, ciascuno dei quali valuta e apprende dai loro output collettivi attraverso un processo iterativo di auto-miglioramento. Simulando un sistema di peer review, i nostri modelli generano, valutano e raffinano gli output in risposta a un insieme curato di prompt, imitando un ambiente di apprendimento in classe. Dimostriamo che questa metodologia migliora le prestazioni del modello senza richiedere ampi dataset etichettati dall'uomo. I nostri esperimenti mostrano un miglioramento significativo su molteplici benchmark, dimostrando il potenziale delle valutazioni tra pari come alternativa scalabile all'allineamento auto-supervisionato. In particolare, mostriamo che Panel-of-Peers aumenta il punteggio medio su quindici benchmark dal 48% al 57%

dettagli

commento: Accepted at ICCV 2025

citazione

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}