Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← 返回论文列表

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

论文 pdf 原始 bibtex

实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气，面向普通读者撰写。

莱斯大学的研究人员开发了一种名为 cFreD（条件 Fréchet 距离）的新指标，以更好地评估根据文本描述生成图像的 AI 系统。当前的评估方法面临困境，因为它们要么衡量图像质量却忽略图像与文本提示的匹配程度，要么反之。团队的方法通过将文本提示直接纳入距离计算，将这两方面评估合并为单一分数。在多个数据集上的测试表明，cFreD 与人类判断的相关性远强于 FID 和 CLIPScore 等现有指标，在某些情况下相关性高达 97%。研究人员将其评估工具包作为开源软件发布，有望为 AI 社区提供一种更可靠的方式来对文本到图像生成模型进行基准测试，而无需昂贵的人工评估。

摘要

由于一个根本性的脱节，评估文本到图像和文本到视频模型颇具挑战：现有指标无法联合衡量视觉质量与文本的语义对齐，导致与人类判断的相关性较差。为解决这一关键问题，我们提出 cFreD，一种基于条件 Fréchet 距离（Conditional Fréchet Distance）的通用指标，它将视觉保真度与文本提示一致性的评估统一为单一分数。Fréchet Inception Distance（FID）等现有指标捕捉图像质量但忽略文本条件，而 CLIPScore 等对齐分数则对视觉质量不敏感。此外，学习得到的偏好模型需要不断重新训练，且不太可能泛化到新颖的架构或分布外的提示。通过在多个近期提出的文本到图像模型和多样化提示数据集上的大量实验，cFreD 相比统计指标（包括用人类偏好训练的指标）展现出与人类判断更高的相关性。我们的研究结果验证了 cFreD 是一个稳健、面向未来的指标，可用于对文本条件模型进行系统评估，并在这一快速演进的领域中规范基准测试。我们发布了评估工具包和基准。

详情

备注: Added new video experiments and more image experiments to validate the method

引用

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

自动生成的本文相关问题、主要贡献与局限

本文有助于回答的问题

什么是 cFreD，它要解决什么问题？cFreD 是一种条件 Fréchet 距离指标，旨在通过同时衡量视觉保真度和与输入提示的对齐来评估文本条件生成。
为什么 FID 和 CLIPScore 不足以用于文本到图像评估？FID 即使在图像与提示不匹配时也可能奖励逼真的图像分布，而 CLIPScore 则专注于图文相似度，无法充分捕捉视觉质量。
对于文本到图像生成，cFreD 与人类偏好的相关性如何？在 HPDv2、Gen-AI Bench、PartiPrompts 和 COCO 评估中，cFreD 在论文所比较的统计指标中取得了最强的平均相关性和排名准确率。
cFreD 是否能扩展到文本到图像生成之外？可以，论文将同样的条件公式应用于文本到视频评估，并在所测试的统计指标中，在 T2VQA-DB 和 EvalCrafter 上报告了最高的平均排名准确率。
是什么让 cFreD 适用于未来的基准测试？它无需人类偏好训练，可以使用现代视觉和文本编码器，并作为开源工具包发布，使其成为新型文本条件生成模型的即插即用评估选项。

主要贡献

论文将条件 Fréchet 距离应用于文本到图像和文本到视频合成，为社区提供了一个统一的、考虑条件信息的统计指标。
在论文的文本到图像基准套件中，cFreD 在平均人类偏好相关性和排名准确率上持续优于 FID、CLIPScore、CMMD 和 FDDINOv2。
文本到视频的结果表明，cFreD 可泛化到时序生成，在排名准确率上匹敌或超越成熟的视频指标，且无需特定任务的人类偏好训练。
稳健性实验表明，cFreD 对图像损坏和文本扰动作出合理响应，而 FID 由于只观察图像统计量，可能会忽略提示与图像的不匹配。
论文包含了广泛的骨干网络分析，表明现代基于 Transformer 的编码器能改善与人类判断的对齐，而 InceptionV3 不再是此类评估的最佳默认选择。

局限与注意事项

cFreD 仍然是人类判断的统计代理，而非精心设计的人类研究的替代品，但其强劲的排名准确率使其在人工评估成本高昂时成为一个有价值的可扩展筛查工具。
该指标依赖于图像和文本编码器的选择，因此随着更强的多模态骨干网络出现，未来的工作可以持续改进 cFreD；论文的消融实验已经为选择这些编码器提供了有用的指导。
所报告的评估侧重于现有的图像和视频偏好数据集，将医学、卫星和科学影像等专门领域留作验证同一条件公式的有前景的下一步方向。
cFreD 概括的是分布层面的行为，而非提供对每个失败样本的详细解释，这使其最适合用于基准层面的比较，而互补的诊断工具可以检查单个样例。
该公式假设存在有用的成对条件信息，因此将其扩展到 ControlNet 或音频到视频生成等多条件设定是自然的后续方向；论文明确指出了这种更广泛的适用性。

如何理解这一结果

这篇论文最好被理解为对生成模型评估的一项有力的实用贡献：cFreD 保留了统计指标的简洁性和可扩展性，同时更好地反映了人类对生成的图像和视频是否既高质量又忠实于其提示的判断。