Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← retour aux publications

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

article pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université Rice ont mis au point une nouvelle métrique appelée cFreD (distance de Fréchet conditionnelle) pour mieux évaluer les systèmes d'IA qui génèrent des images à partir de descriptions textuelles. Les méthodes d'évaluation actuelles peinent car elles mesurent soit la qualité de l'image en ignorant la correspondance avec l'invite textuelle, soit l'inverse. L'approche de l'équipe combine les deux évaluations en un seul score en incorporant l'invite textuelle directement dans le calcul de la distance. Les tests sur plusieurs jeux de données ont montré que cFreD est bien plus fortement corrélée aux jugements humains que les métriques existantes comme FID et CLIPScore, atteignant jusqu'à 97 % de corrélation dans certains cas. Les chercheurs ont publié leur boîte à outils d'évaluation sous forme de logiciel open source, fournissant potentiellement à la communauté de l'IA un moyen plus fiable d'évaluer les modèles de génération texte-vers-image sans nécessiter d'évaluations humaines coûteuses

résumé

Évaluer les modèles texte-vers-image et texte-vers-vidéo est difficile en raison d'une déconnexion fondamentale : les métriques établies ne parviennent pas à mesurer conjointement la qualité visuelle et l'alignement sémantique avec le texte, ce qui entraîne une faible corrélation avec les jugements humains. Pour résoudre ce problème critique, nous proposons cFreD, une métrique générale fondée sur une distance de Fréchet conditionnelle qui unifie l'évaluation de la fidélité visuelle et de la cohérence avec l'invite textuelle en un seul score. Les métriques existantes telles que la Fréchet Inception Distance (FID) capturent la qualité de l'image mais ignorent le conditionnement textuel, tandis que les scores d'alignement comme CLIPScore sont insensibles à la qualité visuelle. De plus, les modèles de préférence appris nécessitent un réentraînement constant et sont peu susceptibles de se généraliser à de nouvelles architectures ou à des invites hors distribution. À travers des expériences approfondies sur plusieurs modèles texte-vers-image récemment proposés et divers jeux de données d'invites, cFreD présente une corrélation plus élevée avec les jugements humains que les métriques statistiques, y compris les métriques entraînées avec des préférences humaines. Nos résultats valident cFreD comme une métrique robuste et pérenne pour l'évaluation systématique des modèles conditionnés par le texte, standardisant l'évaluation comparative dans ce domaine en évolution rapide. Nous publions notre boîte à outils d'évaluation et notre banc d'essai.

détails

commentaire: Added new video experiments and more image experiments to validate the method

citation

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce que cFreD et quel problème résout-elle ? cFreD est une métrique de distance de Fréchet conditionnelle conçue pour évaluer la génération conditionnée par le texte en mesurant à la fois la fidélité visuelle et l'alignement avec l'invite d'entrée.
Pourquoi FID et CLIPScore sont-ils insuffisants pour l'évaluation texte-vers-image ? FID peut récompenser des distributions d'images réalistes même lorsque les images ne correspondent pas à leurs invites, tandis que CLIPScore se concentre sur la similarité image-texte sans capturer pleinement la qualité visuelle.
Dans quelle mesure cFreD est-elle corrélée aux préférences humaines pour la génération texte-vers-image ? Sur les évaluations HPDv2, Gen-AI Bench, PartiPrompts et COCO, cFreD obtient la plus forte corrélation moyenne et la meilleure exactitude de classement parmi les métriques statistiques comparées dans l'article.
cFreD s'étend-elle au-delà de la génération texte-vers-image ? Oui, l'article applique la même formulation conditionnelle à l'évaluation texte-vers-vidéo et rapporte la plus haute exactitude de classement moyenne sur T2VQA-DB et EvalCrafter parmi les métriques statistiques testées.
Qu'est-ce qui rend cFreD pratique pour les futurs bancs d'essai ? Elle ne nécessite aucun entraînement sur des préférences humaines, peut utiliser des encodeurs visuels et textuels modernes, et est publiée sous forme de boîte à outils open source, ce qui en fait une option d'évaluation prête à l'emploi pour les nouveaux modèles génératifs conditionnés par le texte.

Principales contributions

L'article adapte la distance de Fréchet conditionnelle à la synthèse texte-vers-image et texte-vers-vidéo, offrant à la communauté une métrique statistique unifiée qui tient compte de l'information de conditionnement.
cFreD surpasse systématiquement FID, CLIPScore, CMMD et FDDINOv2 en corrélation moyenne avec les préférences humaines et en exactitude de classement sur l'ensemble de la suite de bancs d'essai texte-vers-image de l'article.
Les résultats texte-vers-vidéo montrent que cFreD se généralise à la génération temporelle, égalant ou dépassant les métriques vidéo établies en exactitude de classement sans nécessiter d'entraînement spécifique sur des préférences humaines.
Les expériences de robustesse montrent que cFreD réagit de manière sensée aux corruptions d'images et aux perturbations de texte, tandis que FID peut manquer le désalignement invite-image car elle n'observe que les statistiques de l'image.
L'article inclut une analyse approfondie des architectures de base montrant que les encodeurs modernes fondés sur des transformeurs améliorent l'alignement avec les jugements humains et qu'InceptionV3 n'est plus le meilleur choix par défaut pour ce type d'évaluation.

Limites et mises en garde

cFreD reste un substitut statistique au jugement humain plutôt qu'un remplacement d'études humaines soigneusement conçues, mais sa forte exactitude de classement en fait un outil de présélection évolutif précieux lorsque l'évaluation humaine est coûteuse.
La métrique dépend du choix des encodeurs d'image et de texte, de sorte que les travaux futurs peuvent continuer d'améliorer cFreD à mesure que des architectures multimodales plus puissantes deviennent disponibles ; les ablations de l'article fournissent déjà des indications utiles pour sélectionner ces encodeurs.
Les évaluations rapportées se concentrent sur les jeux de données de préférences d'images et de vidéos disponibles, laissant des domaines spécialisés tels que l'imagerie médicale, satellitaire et scientifique comme prochaines pistes prometteuses pour valider la même formulation conditionnelle.
cFreD résume le comportement au niveau de la distribution plutôt que de fournir des explications détaillées échantillon par échantillon de chaque échec, ce qui la rend particulièrement adaptée à la comparaison au niveau des bancs d'essai, tandis que des outils de diagnostic complémentaires peuvent inspecter les exemples individuels.
La formulation suppose une information de conditionnement appariée utile, de sorte que les extensions à des contextes multi-conditions tels que ControlNet ou la génération audio-vers-vidéo constituent des directions de suivi naturelles ; l'article souligne explicitement cette applicabilité plus large.

Comment interpréter ce résultat

Cet article se lit avant tout comme une solide contribution pratique à l'évaluation des modèles génératifs : cFreD préserve la simplicité et l'évolutivité des métriques statistiques tout en reflétant bien mieux les jugements humains sur le fait que les images et vidéos générées sont à la fois de haute qualité et fidèles à leurs invites.