Improving Large Vision and Language Models by Learning from a Panel of Peers
publication

Improving Large Vision and Language Models by Learning from a Panel of Peers

Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle.
International Conference on Computer Vision. ICCV 2025. Honolulu, HI.
Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice y Adobe Research han desarrollado una nueva técnica de entrenamiento para modelos de IA de visión y lenguaje que evita el costoso y lento proceso de recopilar datos de retroalimentación etiquetados por humanos. El sistema, llamado Panel-of-Peers (PoP), funciona reuniendo un pequeño grupo de modelos de IA similares —en este caso, tres variantes del modelo LLaVA construidas sobre diferentes modelos de lenguaje subyacentes— y haciendo que se califiquen mutuamente las respuestas a preguntas visuales, en lugar de depender de anotadores humanos o de un único modelo "maestro" más potente. Cada modelo del grupo genera respuestas candidatas a pares de imagen y pregunta extraídos de un conjunto de datos sin etiquetar, los demás modelos puntúan esas respuestas en dimensiones como la utilidad y la corrección, y los pares ordenados resultantes se utilizan para ajustar finamente todos los modelos del grupo mediante un bucle iterativo repetido tres veces. Al probarse en 15 benchmarks estándar de visión y lenguaje que cubren tareas que van desde la lectura de gráficos y el OCR hasta el razonamiento matemático y la detección de alucinaciones, el enfoque elevó la puntuación promedio del panel de modelos del 48 % al 57 %, una ganancia que los investigadores señalan supera lo que han logrado métodos comparables que utilizan datos de preferencia curados por humanos o generados por máquinas a escalas de datos similares. El equipo también demostró que un modelo deliberadamente debilitado al eliminar la mayor parte de sus datos de entrenamiento de OCR podía recuperar esa capacidad aprendiendo de pares que la conservaban, lo que sugiere que el marco puede transferir habilidades específicas entre modelos, no solo mejorar el rendimiento general. El trabajo es relevante porque producir datos de preferencia humana para la IA multimodal sigue siendo costoso y difícil de escalar, y los métodos de automejora que dependen de que un único modelo evalúe sus propias salidas tienden a reforzar los errores existentes; usar un grupo diverso de modelos de fuerza aproximadamente equivalente para evaluarse mutuamente parece reducir ese problema sin requerir acceso a un modelo de frontera mucho más grande y costoso como supervisor.

resumen

Los métodos tradicionales de alineación para modelos grandes de visión y lenguaje (LVLM) dependen principalmente de datos de preferencia curados por humanos. Los datos de preferencia generados por humanos son costosos; los generados por máquinas tienen una calidad limitada; y los datos de preferencia autosupervisados a menudo introducen alucinaciones. Para superar estas limitaciones, proponemos un novedoso marco de aprendizaje Panel-of-Peers inspirado en el aprendizaje colaborativo entre humanos. Este enfoque aprovecha un panel de LVLM, cada uno de los cuales evalúa y aprende de sus salidas colectivas mediante un proceso iterativo de automejora. Al simular un sistema de revisión por pares, nuestros modelos generan, evalúan y refinan salidas en respuesta a un conjunto curado de prompts, imitando un entorno de aprendizaje de aula. Demostramos que esta metodología mejora el rendimiento del modelo sin requerir extensos conjuntos de datos etiquetados por humanos. Nuestros experimentos muestran una mejora significativa en múltiples benchmarks, demostrando el potencial de las evaluaciones por pares como una alternativa escalable a la alineación autosupervisada. Notablemente, mostramos que Panel-of-Peers aumenta la puntuación promedio en quince benchmarks del 48 % al 57 %

detalles

comentario
Accepted at ICCV 2025

cita

@inproceedings{hernandez2025improving,
  title = {Improving Large Vision and Language Models by Learning from a Panel of Peers},
  author = {Hernandez, Jefferson and Shi, Jing and Jenni, Simon and Ordonez, Vicente and Kafle, Kushal},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2509.01610},
}