Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← назад к публикациям

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

статья pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University разработали новую метрику под названием cFreD (условное расстояние Фреше), чтобы лучше оценивать ИИ-системы, генерирующие изображения из текстовых описаний. Современные методы оценки испытывают трудности, поскольку они либо измеряют качество изображения, игнорируя то, насколько хорошо изображение соответствует текстовому промпту, либо наоборот. Подход команды объединяет обе оценки в единый показатель, включая текстовый промпт непосредственно в расчёт расстояния. Тестирование на нескольких наборах данных показало, что cFreD коррелирует с человеческими суждениями гораздо сильнее, чем существующие метрики вроде FID и CLIPScore, достигая в некоторых случаях до 97% корреляции. Исследователи опубликовали свой инструментарий для оценки как программное обеспечение с открытым исходным кодом, потенциально предоставляя ИИ-сообществу более надёжный способ оценивать модели генерации изображений из текста без необходимости в дорогостоящих человеческих оценках.

аннотация

Оценка моделей генерации изображений из текста (text-to-image) и видео из текста (text-to-video) является сложной из-за фундаментального разрыва: устоявшиеся метрики не способны совместно измерять визуальное качество и семантическое соответствие тексту, что приводит к слабой корреляции с человеческими суждениями. Чтобы решить эту критическую проблему, мы предлагаем cFreD — общую метрику на основе условного расстояния Фреше (Conditional Fréchet Distance), которая объединяет оценку визуальной достоверности и соответствия текстовому промпту в единый показатель. Существующие метрики, такие как Fréchet Inception Distance (FID), улавливают качество изображения, но игнорируют обусловленность текстом, тогда как оценки соответствия, такие как CLIPScore, нечувствительны к визуальному качеству. Кроме того, обученные модели предпочтений требуют постоянного переобучения и вряд ли обобщаются на новые архитектуры или промпты вне распределения. В ходе обширных экспериментов с несколькими недавно предложенными моделями text-to-image и разнообразными наборами данных промптов cFreD демонстрирует более высокую корреляцию с человеческими суждениями по сравнению со статистическими метриками, включая метрики, обученные на человеческих предпочтениях. Наши результаты подтверждают, что cFreD является устойчивой, готовой к будущему метрикой для систематической оценки обусловленных текстом моделей, стандартизируя бенчмаркинг в этой быстро развивающейся области. Мы публикуем наш инструментарий для оценки и бенчмарк.

подробности

комментарий: Added new video experiments and more image experiments to validate the method

цитирование

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что такое cFreD и какую проблему он решает? cFreD — это метрика на основе условного расстояния Фреше (Conditional Fréchet Distance), предназначенная для оценки обусловленной текстом генерации путём измерения как визуальной достоверности, так и соответствия входному промпту.
Почему FID и CLIPScore недостаточны для оценки генерации изображений из текста? FID может вознаграждать реалистичные распределения изображений, даже когда изображения не соответствуют своим промптам, тогда как CLIPScore фокусируется на сходстве изображение-текст, не в полной мере улавливая визуальное качество.
Насколько хорошо cFreD коррелирует с человеческими предпочтениями для генерации изображений из текста? На оценках HPDv2, Gen-AI Bench, PartiPrompts и COCO cFreD достигает самой сильной средней корреляции и точности ранжирования среди статистических метрик, сравниваемых в статье.
Распространяется ли cFreD за пределы генерации изображений из текста? Да, статья применяет ту же условную формулировку к оценке генерации видео из текста (text-to-video) и сообщает о самой высокой средней точности ранжирования на T2VQA-DB и EvalCrafter среди протестированных статистических метрик.
Что делает cFreD практичным для будущих бенчмарков? Он не требует обучения на человеческих предпочтениях, может использовать современные энкодеры зрения и текста и публикуется как инструментарий с открытым исходным кодом, что делает его готовым к использованию вариантом оценки для новых обусловленных текстом генеративных моделей.

Основные вклады

Статья адаптирует условное расстояние Фреше (Conditional Fréchet Distance) к синтезу изображений из текста и видео из текста, давая сообществу единую статистическую метрику, которая учитывает информацию об обусловленности.
cFreD стабильно превосходит FID, CLIPScore, CMMD и FDDINOv2 по средней корреляции с человеческими предпочтениями и точности ранжирования на всём наборе бенчмарков для генерации изображений из текста, представленном в статье.
Результаты по генерации видео из текста показывают, что cFreD обобщается на временную генерацию, сравниваясь с устоявшимися видеометриками или превосходя их по точности ранжирования без необходимости в обучении на человеческих предпочтениях, специфичном для задачи.
Эксперименты на устойчивость показывают, что cFreD разумно реагирует на искажения изображений и возмущения текста, тогда как FID может упускать несоответствие промпта и изображения, поскольку наблюдает только статистику изображений.
Статья включает обширный анализ опорных сетей (backbone), показывающий, что современные энкодеры на основе трансформеров улучшают соответствие человеческим суждениям и что InceptionV3 больше не является лучшим выбором по умолчанию для такого рода оценки.

Ограничения и предостережения

cFreD по-прежнему является статистическим приближением человеческого суждения, а не заменой тщательно спланированных исследований с участием людей, но его высокая точность ранжирования делает его ценным масштабируемым инструментом предварительного отбора, когда человеческая оценка дорогостояща.
Метрика зависит от выбора энкодеров изображений и текста, поэтому будущая работа может продолжать улучшать cFreD по мере появления более сильных мультимодальных опорных сетей; абляции в статье уже дают полезные рекомендации по выбору этих энкодеров.
Представленные оценки сосредоточены на доступных наборах данных предпочтений по изображениям и видео, оставляя специализированные домены, такие как медицинские, спутниковые и научные изображения, в качестве перспективных следующих областей для проверки той же условной формулировки.
cFreD обобщает поведение на уровне распределения, а не предоставляет подробные объяснения каждого сбоя для отдельных образцов, что делает его наиболее подходящим для сравнения на уровне бенчмарка, тогда как дополнительные диагностические инструменты могут исследовать отдельные примеры.
Формулировка предполагает наличие полезной парной информации об обусловленности, поэтому расширения на настройки с несколькими условиями, такие как ControlNet или генерация видео из аудио, являются естественными направлениями для продолжения; статья прямо указывает на эту более широкую применимость.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как сильный практический вклад в оценку генеративных моделей: cFreD сохраняет простоту и масштабируемость статистических метрик, при этом гораздо лучше отражая человеческие суждения о том, являются ли сгенерированные изображения и видео одновременно высококачественными и точно соответствующими своим промптам.