Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← torna alle pubblicazioni

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

articolo pdf bibtex grezzo

Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Rice University hanno sviluppato una nuova metrica chiamata cFreD (conditional Fréchet Distance) per valutare meglio i sistemi di IA che generano immagini a partire da descrizioni testuali. Gli attuali metodi di valutazione incontrano difficoltà perché o misurano la qualità dell'immagine ignorando quanto bene essa corrisponda al prompt testuale, o viceversa. L'approccio del team combina entrambe le valutazioni in un unico punteggio incorporando il prompt testuale direttamente nel calcolo della distanza. I test su molteplici dataset hanno mostrato che cFreD correla molto più fortemente con i giudizi umani rispetto a metriche esistenti come FID e CLIPScore, raggiungendo in alcuni casi una correlazione fino al 97%. I ricercatori hanno rilasciato il loro toolkit di valutazione come software open-source, fornendo potenzialmente alla comunità dell'IA un modo più affidabile per valutare i modelli di generazione text-to-image senza richiedere costose valutazioni umane

abstract

Valutare i modelli text-to-image e text-to-video è impegnativo a causa di una disconnessione fondamentale: le metriche consolidate non riescono a misurare congiuntamente la qualità visiva e l'allineamento semantico con il testo, portando a una scarsa correlazione con i giudizi umani. Per affrontare questo problema critico, proponiamo cFreD, una metrica generale basata su una Conditional Fréchet Distance che unifica in un unico punteggio la valutazione della fedeltà visiva e della coerenza con il prompt testuale. Le metriche esistenti come la Fréchet Inception Distance (FID) catturano la qualità dell'immagine ma ignorano il condizionamento testuale, mentre i punteggi di allineamento come CLIPScore sono insensibili alla qualità visiva. Inoltre, i modelli di preferenza appresi richiedono un costante riaddestramento ed è improbabile che generalizzino a nuove architetture o a prompt fuori distribuzione. Attraverso esperimenti estesi su molteplici modelli text-to-image proposti di recente e su diversi dataset di prompt, cFreD mostra una correlazione più elevata con i giudizi umani rispetto alle metriche statistiche, comprese le metriche addestrate con preferenze umane. I nostri risultati validano cFreD come una metrica robusta e a prova di futuro per la valutazione sistematica dei modelli condizionati dal testo, standardizzando il benchmarking in questo campo in rapida evoluzione. Rilasciamo il nostro toolkit di valutazione e il benchmark.

dettagli

commento: Added new video experiments and more image experiments to validate the method

citazione

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

domande, principali contributi e limiti di questo articolo generati automaticamente

Domande a cui questo articolo aiuta a rispondere

Cos'è cFreD e quale problema affronta? cFreD è una metrica Conditional Fréchet Distance progettata per valutare la generazione condizionata dal testo misurando sia la fedeltà visiva sia l'allineamento con il prompt di input.
Perché FID e CLIPScore sono insufficienti per la valutazione text-to-image? FID può premiare distribuzioni di immagini realistiche anche quando le immagini non corrispondono ai loro prompt, mentre CLIPScore si concentra sulla somiglianza immagine-testo senza catturare pienamente la qualità visiva.
Quanto bene cFreD correla con le preferenze umane per la generazione text-to-image? Nelle valutazioni su HPDv2, Gen-AI Bench, PartiPrompts e COCO, cFreD raggiunge la più forte correlazione media e accuratezza di ranking tra le metriche statistiche confrontate nell'articolo.
cFreD si estende oltre la generazione text-to-image? Sì, l'articolo applica la stessa formulazione condizionale alla valutazione text-to-video e riporta la più alta accuratezza media di ranking su T2VQA-DB ed EvalCrafter tra le metriche statistiche testate.
Cosa rende cFreD pratica per i benchmark futuri? Non richiede addestramento su preferenze umane, può utilizzare moderni encoder visivi e testuali ed è rilasciata come toolkit open-source, rendendola un'opzione di valutazione plug-and-play per nuovi modelli generativi condizionati dal testo.

Principali contributi

L'articolo adatta la Conditional Fréchet Distance alla sintesi text-to-image e text-to-video, fornendo alla comunità una metrica statistica unificata che tiene conto delle informazioni di condizionamento.
cFreD supera costantemente FID, CLIPScore, CMMD e FDDINOv2 nella correlazione media con le preferenze umane e nell'accuratezza di ranking sull'intera suite di benchmark text-to-image dell'articolo.
I risultati text-to-video mostrano che cFreD generalizza alla generazione temporale, eguagliando o superando le metriche video consolidate nell'accuratezza di ranking senza richiedere addestramento specifico per il compito su preferenze umane.
Gli esperimenti di robustezza mostrano che cFreD risponde in modo sensato alle corruzioni delle immagini e alle perturbazioni del testo, mentre FID può non rilevare il disallineamento prompt-immagine perché osserva solo le statistiche dell'immagine.
L'articolo include un'ampia analisi dei backbone che mostra come i moderni encoder basati su transformer migliorino l'allineamento con i giudizi umani e che InceptionV3 non sia più la migliore scelta predefinita per questo tipo di valutazione.

Limiti e avvertenze

cFreD rimane un proxy statistico del giudizio umano piuttosto che un sostituto di studi umani accuratamente progettati, ma la sua forte accuratezza di ranking la rende un prezioso strumento di screening scalabile quando la valutazione umana è costosa.
La metrica dipende dalla scelta degli encoder di immagini e testo, quindi i lavori futuri possono continuare a migliorare cFreD man mano che diventano disponibili backbone multimodali più potenti; gli studi di ablazione dell'articolo forniscono già indicazioni utili per selezionare tali encoder.
Le valutazioni riportate si concentrano sui dataset di preferenze di immagini e video disponibili, lasciando domini specializzati come l'imaging medico, satellitare e scientifico come promettenti aree successive in cui validare la stessa formulazione condizionale.
cFreD riassume il comportamento a livello di distribuzione anziché fornire spiegazioni dettagliate, campione per campione, di ogni fallimento, il che la rende più adatta al confronto a livello di benchmark, mentre strumenti diagnostici complementari possono esaminare i singoli esempi.
La formulazione presuppone la presenza di informazioni di condizionamento accoppiate utili, quindi le estensioni a contesti multi-condizione come ControlNet o la generazione audio-to-video sono direzioni di follow-up naturali; l'articolo indica esplicitamente questa più ampia applicabilità.

Come interpretare questo risultato

Questo articolo si legge al meglio come un solido contributo pratico alla valutazione dei modelli generativi: cFreD preserva la semplicità e la scalabilità delle metriche statistiche, riflettendo al contempo molto meglio i giudizi umani su quanto le immagini e i video generati siano sia di alta qualità sia fedeli ai propri prompt.