Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← volver a publicaciones

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

artículo pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice han desarrollado una nueva métrica llamada cFreD (Distancia de Fréchet condicional) para evaluar mejor los sistemas de IA que generan imágenes a partir de descripciones de texto. Los métodos de evaluación actuales tienen dificultades porque o bien miden la calidad de la imagen ignorando qué tan bien coincide la imagen con el prompt de texto, o viceversa. El enfoque del equipo combina ambas evaluaciones en una única puntuación incorporando el prompt de texto directamente en el cálculo de la distancia. Las pruebas en múltiples conjuntos de datos mostraron que cFreD se correlaciona mucho más fuertemente con los juicios humanos que métricas existentes como FID y CLIPScore, alcanzando hasta un 97% de correlación en algunos casos. Los investigadores publicaron su kit de herramientas de evaluación como software de código abierto, lo que potencialmente proporciona a la comunidad de IA una forma más fiable de evaluar modelos de generación de texto a imagen sin requerir costosas evaluaciones humanas.

resumen

Evaluar los modelos de texto a imagen y de texto a vídeo es un reto debido a una desconexión fundamental: las métricas establecidas no logran medir conjuntamente la calidad visual y la alineación semántica con el texto, lo que conduce a una correlación pobre con los juicios humanos. Para abordar este problema crítico, proponemos cFreD, una métrica general basada en una Distancia de Fréchet Condicional que unifica la evaluación de la fidelidad visual y la consistencia con el prompt de texto en una única puntuación. Las métricas existentes como la Fréchet Inception Distance (FID) capturan la calidad de la imagen pero ignoran el condicionamiento por texto, mientras que las puntuaciones de alineación como CLIPScore son insensibles a la calidad visual. Además, los modelos de preferencia aprendidos requieren reentrenamiento constante y es poco probable que generalicen a arquitecturas nuevas o a prompts fuera de la distribución. A través de experimentos extensos en múltiples modelos de texto a imagen propuestos recientemente y conjuntos de prompts diversos, cFreD exhibe una mayor correlación con los juicios humanos en comparación con las métricas estadísticas, incluidas las métricas entrenadas con preferencias humanas. Nuestros hallazgos validan cFreD como una métrica robusta y a prueba de futuro para la evaluación sistemática de modelos condicionados por texto, estandarizando la evaluación comparativa en este campo en rápida evolución. Publicamos nuestro kit de herramientas de evaluación y nuestro benchmark.

detalles

comentario: Added new video experiments and more image experiments to validate the method

cita

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

preguntas, contribuciones principales y limitaciones de este artículo generadas automáticamente

Preguntas que ayuda a responder este artículo

¿Qué es cFreD y qué problema aborda? cFreD es una métrica de Distancia de Fréchet Condicional diseñada para evaluar la generación condicionada por texto midiendo tanto la fidelidad visual como la alineación con el prompt de entrada.
¿Por qué son insuficientes FID y CLIPScore para la evaluación de texto a imagen? FID puede recompensar distribuciones de imágenes realistas incluso cuando las imágenes no coinciden con sus prompts, mientras que CLIPScore se centra en la similitud imagen-texto sin capturar plenamente la calidad visual.
¿Qué tan bien se correlaciona cFreD con las preferencias humanas para la generación de texto a imagen? A través de las evaluaciones en HPDv2, Gen-AI Bench, PartiPrompts y COCO, cFreD logra la mayor correlación promedio y precisión de ranking entre las métricas estadísticas comparadas en el artículo.
¿Se extiende cFreD más allá de la generación de texto a imagen? Sí, el artículo aplica la misma formulación condicional a la evaluación de texto a vídeo y reporta la mayor precisión de ranking promedio en T2VQA-DB y EvalCrafter entre las métricas estadísticas probadas.
¿Qué hace que cFreD sea práctica para benchmarks futuros? No requiere entrenamiento con preferencias humanas, puede usar codificadores modernos de visión y texto, y se publica como un kit de herramientas de código abierto, lo que la convierte en una opción de evaluación lista para usar para nuevos modelos generativos condicionados por texto.

Contribuciones principales

El artículo adapta la Distancia de Fréchet Condicional a la síntesis de texto a imagen y de texto a vídeo, dando a la comunidad una métrica estadística unificada que tiene en cuenta la información de condicionamiento.
cFreD supera consistentemente a FID, CLIPScore, CMMD y FDDINOv2 en correlación promedio con la preferencia humana y precisión de ranking en el conjunto de benchmarks de texto a imagen del artículo.
Los resultados de texto a vídeo muestran que cFreD generaliza a la generación temporal, igualando o superando a las métricas de vídeo establecidas en precisión de ranking sin requerir entrenamiento con preferencias humanas específico de la tarea.
Los experimentos de robustez muestran que cFreD responde con sensatez a las corrupciones de imagen y a las perturbaciones de texto, mientras que FID puede pasar por alto la desalineación entre prompt e imagen porque solo observa estadísticas de la imagen.
El artículo incluye un amplio análisis de redes troncales que muestra que los codificadores modernos basados en transformadores mejoran la alineación con los juicios humanos y que InceptionV3 ya no es la mejor opción por defecto para este tipo de evaluación.

Limitaciones y advertencias

cFreD sigue siendo un sustituto estadístico del juicio humano más que un reemplazo de estudios humanos cuidadosamente diseñados, pero su sólida precisión de ranking la convierte en una valiosa herramienta de cribado escalable cuando la evaluación humana es costosa.
La métrica depende de la elección de los codificadores de imagen y de texto, por lo que trabajos futuros pueden seguir mejorando cFreD a medida que se disponga de redes troncales multimodales más potentes; las ablaciones del artículo ya proporcionan una orientación útil para seleccionar esos codificadores.
Las evaluaciones reportadas se centran en los conjuntos de datos de preferencias de imagen y vídeo disponibles, dejando dominios especializados como la imagen médica, satelital y científica como áreas prometedoras a continuación para validar la misma formulación condicional.
cFreD resume el comportamiento a nivel de distribución en lugar de proporcionar explicaciones detalladas por muestra de cada fallo, lo que la hace más adecuada para la comparación a nivel de benchmark, mientras que herramientas de diagnóstico complementarias pueden inspeccionar ejemplos individuales.
La formulación asume información de condicionamiento emparejada útil, por lo que las extensiones a configuraciones de múltiples condiciones como ControlNet o la generación de audio a vídeo son direcciones de seguimiento naturales; el artículo apunta explícitamente a esta aplicabilidad más amplia.

Cómo interpretar este resultado

Este artículo se lee mejor como una sólida contribución práctica a la evaluación de modelos generativos: cFreD preserva la simplicidad y la escalabilidad de las métricas estadísticas al tiempo que refleja mucho mejor los juicios humanos sobre si las imágenes y los vídeos generados son tanto de alta calidad como fieles a sus prompts.