Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez; Jing Shi; Simon Jenni; Vicente Ordonez; Kushal Kafle

← retour aux publications

publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.

International Conference on Computer Vision. ICCV 2025. Honolulu, HI.

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université Rice et d'Adobe Research ont mis au point une nouvelle technique d'entraînement pour les modèles d'IA vision-langage qui contourne le processus coûteux et chronophage de collecte de données de retour annotées par des humains. Le système, appelé Panel-of-Peers (PoP), fonctionne en assemblant un petit groupe de modèles d'IA similaires — en l'occurrence, trois variantes du modèle LLaVA construites sur différents modèles de langage sous-jacents — et en leur faisant noter mutuellement leurs réponses à des questions visuelles plutôt que de s'appuyer sur des annotateurs humains ou un unique modèle « enseignant » plus puissant. Chaque modèle du groupe génère des réponses candidates à des paires image-question tirées d'un jeu de données non annoté, les autres modèles notent ces réponses selon des dimensions telles que l'utilité et l'exactitude, et les paires classées qui en résultent servent à affiner tous les modèles du groupe au moyen d'une boucle itérative répétée trois fois. Lors de tests sur 15 bancs d'essai vision-langage standard couvrant des tâches allant de la lecture de graphiques et de l'OCR au raisonnement mathématique et à la détection d'hallucinations, l'approche a fait passer le score moyen du panel de modèles de 48 % à 57 %, un gain qui, comme le notent les chercheurs, dépasse ce que des méthodes comparables utilisant des données de préférence sélectionnées par des humains ou générées par des machines ont obtenu à des échelles de données similaires. L'équipe a également montré qu'un modèle délibérément handicapé par la suppression de la majeure partie de ses données d'entraînement OCR pouvait récupérer cette capacité en apprenant de pairs qui l'avaient conservée, suggérant que le cadre peut transférer des compétences spécifiques entre modèles, et pas seulement améliorer les performances générales. Ce travail importe car produire des données de préférence humaines pour l'IA multimodale reste coûteux et difficile à mettre à l'échelle, et les méthodes d'auto-amélioration qui reposent sur un seul modèle évaluant ses propres sorties ont tendance à renforcer les erreurs existantes ; utiliser un groupe diversifié de modèles de force à peu près égale pour s'évaluer mutuellement semble réduire ce problème sans nécessiter l'accès à un modèle de pointe bien plus grand et plus coûteux en guise de superviseur.

résumé

Les méthodes d'alignement traditionnelles pour les grands modèles vision-langage (LVLM) reposent principalement sur des données de préférence sélectionnées par des humains. Les données de préférence générées par des humains sont coûteuses ; les données de préférence générées par des machines sont de qualité limitée ; et les données de préférence auto-supervisées introduisent souvent des hallucinations. Pour surmonter ces limitations, nous proposons un nouveau cadre d'apprentissage Panel-of-Peers inspiré de l'apprentissage collaboratif entre humains. Cette approche s'appuie sur un panel de LVLM, chacun évaluant et apprenant à partir de leurs sorties collectives au moyen d'un processus itératif d'auto-amélioration. En simulant un système d'évaluation par les pairs, nos modèles génèrent, évaluent et affinent des sorties en réponse à un ensemble sélectionné d'invites, imitant un environnement d'apprentissage en classe. Nous démontrons que cette méthodologie améliore les performances des modèles sans nécessiter de vastes jeux de données annotés par des humains. Nos expériences montrent une amélioration significative sur plusieurs bancs d'essai, démontrant le potentiel des évaluations par les pairs comme alternative évolutive à l'alignement auto-supervisé. Notamment, nous montrons que Panel-of-Peers fait passer le score moyen sur quinze bancs d'essai de 48 % à 57 %

détails

commentaire: Accepted at ICCV 2025

citation

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}