Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← voltar às publicações

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University desenvolveram uma nova métrica chamada cFreD (Distância de Fréchet condicional) para avaliar melhor os sistemas de IA que geram imagens a partir de descrições textuais. Os métodos de avaliação atuais têm dificuldades porque medem a qualidade da imagem ignorando o quão bem a imagem corresponde ao prompt textual, ou vice-versa. A abordagem da equipe combina ambas as avaliações em uma única pontuação ao incorporar o prompt textual diretamente no cálculo da distância. Testes em múltiplos conjuntos de dados mostraram que a cFreD se correlaciona muito mais fortemente com os julgamentos humanos do que métricas existentes como FID e CLIPScore, atingindo até 97% de correlação em alguns casos. Os pesquisadores disponibilizaram seu kit de ferramentas de avaliação como software de código aberto, potencialmente oferecendo à comunidade de IA uma forma mais confiável de fazer benchmarking de modelos de geração de texto para imagem sem exigir avaliações humanas custosas

resumo

Avaliar modelos de texto para imagem e de texto para vídeo é desafiador devido a uma desconexão fundamental: as métricas estabelecidas não conseguem medir conjuntamente a qualidade visual e o alinhamento semântico com o texto, levando a uma baixa correlação com os julgamentos humanos. Para abordar essa questão crítica, propomos a cFreD, uma métrica geral baseada em uma Distância de Fréchet Condicional que unifica a avaliação da fidelidade visual e da consistência com o prompt textual em uma única pontuação. Métricas existentes como a Fréchet Inception Distance (FID) capturam a qualidade da imagem, mas ignoram o condicionamento pelo texto, enquanto pontuações de alinhamento como o CLIPScore são insensíveis à qualidade visual. Além disso, modelos de preferência aprendidos exigem retreinamento constante e dificilmente generalizam para arquiteturas inéditas ou prompts fora da distribuição. Por meio de experimentos extensos em múltiplos modelos de texto para imagem recentemente propostos e em diversos conjuntos de dados de prompts, a cFreD exibe uma correlação mais alta com os julgamentos humanos em comparação com métricas estatísticas, incluindo métricas treinadas com preferências humanas. Nossos achados validam a cFreD como uma métrica robusta e à prova de futuro para a avaliação sistemática de modelos condicionados por texto, padronizando o benchmarking neste campo em rápida evolução. Disponibilizamos nosso kit de ferramentas de avaliação e nosso benchmark.

detalhes

comentário: Added new video experiments and more image experiments to validate the method

citação

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

perguntas, principais contribuições e limitações deste artigo geradas automaticamente

Perguntas que este artigo ajuda a responder

O que é a cFreD e qual problema ela aborda? A cFreD é uma métrica de Distância de Fréchet Condicional projetada para avaliar a geração condicionada por texto ao medir tanto a fidelidade visual quanto o alinhamento com o prompt de entrada.
Por que FID e CLIPScore são insuficientes para a avaliação de texto para imagem? A FID pode recompensar distribuições de imagens realistas mesmo quando as imagens não correspondem aos seus prompts, enquanto o CLIPScore foca na similaridade imagem-texto sem capturar plenamente a qualidade visual.
Quão bem a cFreD se correlaciona com as preferências humanas para a geração de texto para imagem? Nas avaliações em HPDv2, Gen-AI Bench, PartiPrompts e COCO, a cFreD alcança a correlação média e a acurácia de ordenação mais fortes entre as métricas estatísticas comparadas no artigo.
A cFreD se estende para além da geração de texto para imagem? Sim, o artigo aplica a mesma formulação condicional à avaliação de texto para vídeo e relata a maior acurácia média de ordenação em T2VQA-DB e EvalCrafter entre as métricas estatísticas testadas.
O que torna a cFreD prática para benchmarks futuros? Ela não exige treinamento com preferências humanas, pode usar codificadores de visão e texto modernos e é disponibilizada como um kit de ferramentas de código aberto, tornando-se uma opção de avaliação plug-and-play para novos modelos generativos condicionados por texto.

Principais contribuições

O artigo adapta a Distância de Fréchet Condicional à síntese de texto para imagem e de texto para vídeo, oferecendo à comunidade uma métrica estatística unificada que leva em conta a informação de condicionamento.
A cFreD supera consistentemente a FID, o CLIPScore, a CMMD e a FDDINOv2 em correlação média com preferências humanas e em acurácia de ordenação em todo o conjunto de benchmarks de texto para imagem do artigo.
Os resultados de texto para vídeo mostram que a cFreD generaliza para a geração temporal, igualando ou superando métricas de vídeo estabelecidas em acurácia de ordenação sem exigir treinamento com preferências humanas específico da tarefa.
Experimentos de robustez mostram que a cFreD responde de forma sensata a corrupções de imagem e perturbações de texto, enquanto a FID pode não detectar o desalinhamento prompt-imagem por observar apenas estatísticas da imagem.
O artigo inclui uma ampla análise de backbones mostrando que codificadores modernos baseados em transformer melhoram o alinhamento com os julgamentos humanos e que o InceptionV3 já não é a melhor escolha padrão para esse tipo de avaliação.

Limitações e ressalvas

A cFreD ainda é um proxy estatístico do julgamento humano, e não um substituto para estudos humanos cuidadosamente projetados, mas sua forte acurácia de ordenação a torna uma valiosa ferramenta de triagem escalável quando a avaliação humana é custosa.
A métrica depende da escolha dos codificadores de imagem e texto, então trabalhos futuros podem continuar aprimorando a cFreD à medida que backbones multimodais mais robustos se tornem disponíveis; as ablações do artigo já fornecem orientações úteis para selecionar esses codificadores.
As avaliações relatadas focam em conjuntos de dados de preferência de imagem e vídeo disponíveis, deixando domínios especializados como imagens médicas, de satélite e científicas como próximas áreas promissoras para validar a mesma formulação condicional.
A cFreD resume o comportamento em nível de distribuição em vez de fornecer explicações detalhadas por amostra de cada falha, o que a torna mais adequada para a comparação em nível de benchmark, enquanto ferramentas de diagnóstico complementares podem inspecionar exemplos individuais.
A formulação pressupõe informação de condicionamento pareada e útil, então extensões para cenários multicondição como ControlNet ou geração de áudio para vídeo são direções naturais de continuidade; o artigo aponta explicitamente para essa aplicabilidade mais ampla.

Como interpretar este resultado

Este artigo é mais bem compreendido como uma forte contribuição prática para a avaliação de modelos generativos: a cFreD preserva a simplicidade e a escalabilidade das métricas estatísticas, ao mesmo tempo em que reflete muito melhor os julgamentos humanos sobre se as imagens e os vídeos gerados são, simultaneamente, de alta qualidade e fiéis aos seus prompts.