Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo; Jefferson Hernandez; Moayed Haji-Ali; Ziyan Yang; Vicente Ordonez

← quay lại danh sách công bố

publication

Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance

Jaywon Koo, Jefferson Hernandez, Moayed Haji-Ali, Ziyan Yang, Vicente Ordonez.

IEEE Winter Conference on Applications of Computer Vision. WACV 2026. Tucson, AZ.

bài báo pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Rice University đã phát triển một thước đo mới có tên cFreD (conditional Fréchet Distance) để đánh giá tốt hơn các hệ thống AI tạo ảnh từ mô tả văn bản. Các phương pháp đánh giá hiện tại gặp khó khăn vì chúng hoặc đo chất lượng ảnh trong khi bỏ qua mức độ khớp của ảnh với lời nhắc văn bản, hoặc ngược lại. Cách tiếp cận của nhóm kết hợp cả hai đánh giá vào một điểm số duy nhất bằng cách đưa lời nhắc văn bản trực tiếp vào phép tính khoảng cách. Việc thử nghiệm trên nhiều bộ dữ liệu cho thấy cFreD tương quan mạnh hơn nhiều với phán đoán của con người so với các thước đo hiện có như FID và CLIPScore, đạt tương quan lên đến 97% trong một số trường hợp. Các nhà nghiên cứu đã phát hành bộ công cụ đánh giá của họ dưới dạng phần mềm mã nguồn mở, có khả năng cung cấp cho cộng đồng AI một cách đáng tin cậy hơn để thiết lập benchmark cho các mô hình tạo ảnh từ văn bản mà không cần các đánh giá tốn kém của con người

tóm tắt

Việc đánh giá các mô hình text-to-image và text-to-video là thách thức do một sự đứt gãy căn bản: các thước đo đã được thiết lập không thể đo lường đồng thời chất lượng thị giác và sự khớp ngữ nghĩa với văn bản, dẫn đến tương quan kém với phán đoán của con người. Để giải quyết vấn đề then chốt này, chúng tôi đề xuất cFreD, một thước đo tổng quát dựa trên Conditional Fréchet Distance hợp nhất việc đánh giá độ trung thực thị giác và sự nhất quán với lời nhắc văn bản thành một điểm số duy nhất. Các thước đo hiện có như Fréchet Inception Distance (FID) nắm bắt chất lượng ảnh nhưng bỏ qua điều kiện văn bản trong khi các điểm số về sự khớp như CLIPScore lại không nhạy với chất lượng thị giác. Hơn nữa, các mô hình sở thích được học đòi hỏi huấn luyện lại liên tục và khó có khả năng khái quát hóa sang các kiến trúc mới hoặc các lời nhắc ngoài phân phối. Thông qua các thí nghiệm sâu rộng trên nhiều mô hình text-to-image được đề xuất gần đây và các bộ dữ liệu lời nhắc đa dạng, cFreD thể hiện tương quan cao hơn với phán đoán của con người so với các thước đo thống kê, bao gồm cả các thước đo được huấn luyện với sở thích của con người. Các phát hiện của chúng tôi xác nhận cFreD là một thước đo bền vững, không lỗi thời cho việc đánh giá có hệ thống các mô hình có điều kiện văn bản, chuẩn hóa việc thiết lập benchmark trong lĩnh vực đang phát triển nhanh chóng này. Chúng tôi phát hành bộ công cụ đánh giá và benchmark của mình.

chi tiết

ghi chú: Added new video experiments and more image experiments to validate the method

trích dẫn

@inproceedings{koo2026evaluating,
  title = {Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance},
  author = {Koo, Jaywon and Hernandez, Jefferson and Haji-Ali, Moayed and Yang, Ziyan and Ordonez, Vicente},
  year = {2026},
  booktitle = {IEEE Winter Conference on Applications of Computer Vision. WACV 2026},
  url = {https://arxiv.org/abs/2503.21721},
}

câu hỏi, đóng góp chính và hạn chế của bài báo này được tạo tự động

Câu hỏi mà bài báo này giúp trả lời

cFreD là gì và nó giải quyết vấn đề nào? cFreD là một thước đo Conditional Fréchet Distance được thiết kế để đánh giá việc tạo có điều kiện văn bản bằng cách đo lường cả độ trung thực thị giác lẫn sự khớp với lời nhắc đầu vào.
Tại sao FID và CLIPScore không đủ cho việc đánh giá text-to-image? FID có thể tưởng thưởng các phân phối ảnh chân thực ngay cả khi các ảnh không khớp với lời nhắc của chúng, trong khi CLIPScore tập trung vào sự tương đồng ảnh-văn bản mà không nắm bắt đầy đủ chất lượng thị giác.
cFreD tương quan tốt đến mức nào với sở thích của con người đối với việc tạo text-to-image? Trên các đánh giá HPDv2, Gen-AI Bench, PartiPrompts, và COCO, cFreD đạt tương quan trung bình và độ chính xác xếp hạng mạnh nhất trong số các thước đo thống kê được so sánh trong bài báo.
cFreD có mở rộng ra ngoài việc tạo text-to-image không? Có, bài báo áp dụng cùng một công thức có điều kiện cho việc đánh giá text-to-video và báo cáo độ chính xác xếp hạng trung bình cao nhất trên T2VQA-DB và EvalCrafter trong số các thước đo thống kê được kiểm tra.
Điều gì khiến cFreD thực tế cho các benchmark tương lai? Nó không đòi hỏi huấn luyện trên sở thích của con người, có thể dùng các bộ mã hóa thị giác và văn bản hiện đại, và được phát hành dưới dạng bộ công cụ mã nguồn mở, khiến nó trở thành một lựa chọn đánh giá cắm-và-chạy cho các mô hình sinh có điều kiện văn bản mới.

Đóng góp chính

Bài báo điều chỉnh Conditional Fréchet Distance cho việc tổng hợp text-to-image và text-to-video, mang lại cho cộng đồng một thước đo thống kê thống nhất có tính đến thông tin điều kiện.
cFreD liên tục vượt trội FID, CLIPScore, CMMD, và FDDINOv2 về tương quan trung bình với sở thích của con người và độ chính xác xếp hạng trên bộ benchmark text-to-image của bài báo.
Các kết quả text-to-video cho thấy rằng cFreD khái quát hóa sang việc tạo theo thời gian, ngang bằng hoặc vượt qua các thước đo video đã được thiết lập về độ chính xác xếp hạng mà không cần huấn luyện trên sở thích của con người đặc thù theo tác vụ.
Các thí nghiệm về tính bền vững cho thấy rằng cFreD phản ứng hợp lý với các hư hỏng ảnh và nhiễu loạn văn bản, trong khi FID có thể bỏ sót sự không khớp giữa lời nhắc và ảnh vì nó chỉ quan sát thống kê ảnh.
Bài báo bao gồm một phân tích backbone rộng cho thấy rằng các bộ mã hóa dựa trên transformer hiện đại cải thiện sự khớp với phán đoán của con người và rằng InceptionV3 không còn là lựa chọn mặc định tốt nhất cho loại đánh giá này nữa.

Hạn chế và lưu ý

cFreD vẫn là một đại diện thống kê cho phán đoán của con người chứ không phải sự thay thế cho các nghiên cứu con người được thiết kế cẩn thận, nhưng độ chính xác xếp hạng mạnh của nó khiến nó trở thành một công cụ sàng lọc có khả năng mở rộng có giá trị khi việc đánh giá bằng con người tốn kém.
Thước đo phụ thuộc vào việc chọn các bộ mã hóa ảnh và văn bản, nên công trình tương lai có thể tiếp tục cải thiện cFreD khi các backbone đa phương thức mạnh hơn trở nên sẵn có; các phân tích loại bỏ thành phần của bài báo đã cung cấp hướng dẫn hữu ích cho việc chọn các bộ mã hóa đó.
Các đánh giá được báo cáo tập trung vào các bộ dữ liệu sở thích ảnh và video sẵn có, để lại các lĩnh vực chuyên biệt như hình ảnh y khoa, vệ tinh và khoa học như những vùng tiếp theo đầy hứa hẹn để kiểm chứng cùng một công thức có điều kiện.
cFreD tóm tắt hành vi ở cấp độ phân phối thay vì cung cấp các giải thích chi tiết cho từng mẫu về mọi thất bại, điều khiến nó phù hợp nhất cho việc so sánh ở cấp benchmark trong khi các công cụ chẩn đoán bổ trợ có thể kiểm tra từng ví dụ riêng lẻ.
Công thức giả định thông tin điều kiện được ghép cặp hữu ích, nên các phần mở rộng sang các bối cảnh đa điều kiện như ControlNet hoặc tạo audio-to-video là những hướng đi tiếp theo tự nhiên; bài báo chỉ ra một cách tường minh khả năng áp dụng rộng hơn này.

Cách diễn giải kết quả này

Bài báo này nên được đọc như một đóng góp thực tế mạnh mẽ cho việc đánh giá mô hình sinh: cFreD giữ được sự đơn giản và khả năng mở rộng của các thước đo thống kê trong khi phản ánh tốt hơn nhiều các phán đoán của con người về việc liệu các ảnh và video được tạo ra có vừa chất lượng cao vừa trung thành với lời nhắc của chúng hay không.