Improving Progressive Generation with Decomposable Flow Matching
Tóm tắt thông cáo báo chí
Các nhà nghiên cứu từ Rice University và Snap Inc. đã phát triển một phương pháp mới để sinh ảnh và video độ phân giải cao, cải thiện chất lượng mà không có sự phức tạp thường gắn liền với các hệ thống sinh ảnh đa giai đoạn. Công trình, mang tên Decomposable Flow Matching (DFM), giải quyết một thách thức đã được biết đến trong tổng hợp ảnh bằng AI: việc sinh chi tiết thị giác tinh tế một cách hiệu quả đòi hỏi phải chia tác vụ thành các bước từ thô đến tinh, nhưng các phương pháp hiện có thường yêu cầu các mô hình riêng biệt cho từng giai đoạn, các quá trình khuếch tán tùy chỉnh, hoặc những bước chuyển giao phức tạp giữa các giai đoạn. DFM né tránh những phức tạp này bằng cách áp dụng một kỹ thuật tiêu chuẩn gọi là Flow Matching một cách độc lập cho mỗi cấp của một biểu diễn ảnh đa tỉ lệ — về cơ bản là một tháp Laplacian phân tách một ảnh thành các lớp chi tiết tăng dần — trong khi sử dụng một mô hình chung duy nhất xuyên suốt. Trong quá trình huấn luyện, hệ thống mô phỏng quá trình sinh lũy tiến bằng cách lấy mẫu các mức nhiễu khác nhau cho mỗi giai đoạn, và tại thời điểm suy luận, một bộ lập lịch đơn giản di chuyển qua các giai đoạn tuần tự từ thô đến tinh. Được kiểm thử trên benchmark tiêu chuẩn ImageNet-1K ở độ phân giải 512 pixel, DFM giảm một chỉ số chất lượng quan trọng gọi là FDD đi 35% so với Flow Matching thuần túy và 26% so với phương pháp đa giai đoạn cạnh tranh tốt nhất, sử dụng cùng một lượng chi phí tính toán huấn luyện. Các nhà nghiên cứu cũng áp dụng DFM vào việc tinh chỉnh FLUX, một mô hình sinh ảnh quy mô lớn cấp thương mại, và phát hiện ra rằng nó hội tụ về phân phối ảnh mục tiêu nhanh hơn so với tinh chỉnh tiêu chuẩn, cắt giảm điểm FID khoảng 29%. Ý nghĩa của công trình chủ yếu nằm ở sự đơn giản của nó: nó mang lại những lợi ích chất lượng đáng kể thông qua một thay đổi tối thiểu đối với một quy trình huấn luyện hiện có thay vì đòi hỏi một kiến trúc hoàn toàn mới hoặc một chuỗi nối tiếp mô hình riêng biệt.
tóm tắt
Việc sinh ra các phương thức thị giác có số chiều cao là một tác vụ tốn kém về mặt tính toán. Một giải pháp phổ biến là sinh lũy tiến, trong đó đầu ra được tổng hợp theo cách tự hồi quy phổ từ thô đến tinh. Mặc dù các mô hình khuếch tán hưởng lợi từ bản chất thô-đến-tinh của quá trình khử nhiễu, các kiến trúc đa giai đoạn tường minh hiếm khi được áp dụng. Các kiến trúc này làm tăng độ phức tạp của toàn bộ phương pháp, dẫn đến nhu cầu về một công thức khuếch tán tùy chỉnh, các chuyển tiếp giai đoạn phụ thuộc vào phép phân rã, các bộ lấy mẫu đặc thù, hoặc một chuỗi nối tiếp mô hình. Đóng góp của chúng tôi, Decomposable Flow Matching (DFM), là một khung làm việc đơn giản và hiệu quả cho việc sinh lũy tiến phương tiện thị giác. DFM áp dụng Flow Matching một cách độc lập tại mỗi cấp của một biểu diễn đa tỉ lệ do người dùng định nghĩa (chẳng hạn như tháp Laplacian). Như được thể hiện qua các thí nghiệm của chúng tôi, phương pháp của chúng tôi cải thiện chất lượng thị giác cho cả ảnh lẫn video, mang lại kết quả vượt trội so với các khung làm việc đa giai đoạn trước đây. Trên Imagenet-1k 512px, DFM đạt mức cải thiện 35.2% về điểm FDD so với kiến trúc cơ sở và 26.4% so với baseline có hiệu năng tốt nhất, dưới cùng một mức chi phí tính toán huấn luyện. Khi áp dụng vào việc tinh chỉnh các mô hình lớn, chẳng hạn như FLUX, DFM thể hiện tốc độ hội tụ nhanh hơn về phân phối huấn luyện. Quan trọng là, tất cả những lợi thế này đều đạt được với một mô hình duy nhất, sự đơn giản về kiến trúc, và những thay đổi tối thiểu đối với các quy trình huấn luyện hiện có.
chi tiết
trích dẫn
@inproceedings{hajiali2025improving,
title = {Improving Progressive Generation with Decomposable Flow Matching},
author = {Haji-Ali, Moayed and Menapace, Willi and Skorokhodov, Ivan and Sahni, Arpit and Tulyakov, Sergey and Ordonez, Vicente and Siarohin, Aliaksandr},
year = {2025},
booktitle = {Conf on Neural Information Processing Systems. NeurIPS 2025},
url = {https://arxiv.org/abs/2506.19839},
}
câu hỏi, đóng góp chính và hạn chế của bài báo này được tạo tự động
Câu hỏi mà bài báo này giúp trả lời
- Decomposable Flow Matching là gì và nó giải quyết vấn đề gì? DFM là một khung làm việc sinh lũy tiến áp dụng Flow Matching một cách độc lập trên các cấp của một biểu diễn đa tỉ lệ, cải thiện việc tổng hợp ảnh và video từ thô đến tinh mà không cần các chuỗi nối tiếp mô hình hay các quá trình khuếch tán tùy chỉnh.
- DFM sinh mẫu một cách lũy tiến như thế nào? Nó phân rã dữ liệu thị giác thành các giai đoạn chẳng hạn như một tháp Laplacian, gán cho mỗi giai đoạn một bước thời gian luồng riêng, và sử dụng một bộ lấy mẫu để đẩy các giai đoạn từ cấu trúc thô đến chi tiết tinh.
- Tại sao DFM đơn giản hơn nhiều phương pháp sinh lũy tiến trước đây? Nó giữ một mô hình chung duy nhất và một công thức Flow Matching tiêu chuẩn, tránh các mô hình riêng theo từng giai đoạn, các bộ lấy mẫu chuyên dụng, và các cơ chế chuyển tiếp phức tạp.
- DFM hoạt động ra sao trên các benchmark sinh ảnh? Trên ImageNet-1K ở 512px và 1024px, DFM vượt trội hơn Flow Matching, các baseline nối tiếp, và Pyramidal Flow trên các chỉ số chính cùng các thiết lập hướng dẫn được báo cáo trong bài báo.
- DFM có giúp ích cho việc tinh chỉnh mô hình quy mô lớn không? Có, khi áp dụng vào việc tinh chỉnh FLUX, DFM đạt FID, FDD, và độ tương đồng CLIP tốt hơn so với tinh chỉnh tiêu chuẩn dưới cùng một mức chi phí tính toán huấn luyện, cho thấy sự hội tụ nhanh hơn về phân phối mục tiêu.
Đóng góp chính
- Bài báo giới thiệu một mở rộng đa tỉ lệ đơn giản của Flow Matching, biến việc sinh ảnh thành một quá trình thô-đến-tinh có thể phân rã trong khi vẫn giữ một bộ sinh chung duy nhất.
- DFM hỗ trợ các phép phân rã do người dùng định nghĩa, với bài báo sử dụng tháp Laplacian trong khi lưu ý rằng các phép phân rã wavelet, DCT, Fourier, hoặc bộ tự mã hóa đa tỉ lệ là những lựa chọn thay thế tự nhiên.
- Phương pháp bao gồm một phân tích chi tiết về các phân phối bước thời gian huấn luyện, các ngưỡng lấy mẫu, số bước lấy mẫu theo từng giai đoạn, che mặt nạ, các lựa chọn phân rã, và các chiến lược phân bổ tính toán.
- Các thí nghiệm cho thấy kết quả mạnh mẽ trên việc sinh ảnh ImageNet-1K và sinh video Kinetics-700, bao gồm các giá trị được báo cáo tốt nhất trong số các baseline sinh lũy tiến của bài báo ở hầu hết các thiết lập.
- Thí nghiệm tinh chỉnh FLUX chứng minh rằng DFM có thể cải thiện việc thích ứng của một mô hình sinh quy mô lớn với những thay đổi tối thiểu đối với quy trình huấn luyện.
Hạn chế và lưu ý
- DFM đưa thêm vào các siêu tham số huấn luyện và lấy mẫu bổ sung, nhưng bài báo cung cấp các nghiên cứu loại bỏ rộng rãi và hướng dẫn thực tiễn cho thấy các thiết lập ổn định có thể chuyển giao qua nhiều thí nghiệm.
- Hiệu năng của khung làm việc phụ thuộc vào việc cân bằng cấu trúc tần số thấp và chi tiết tần số cao, nên công trình tương lai có thể tinh chỉnh các chính sách lập lịch tự động; các kết quả hiện tại đã cho thấy rằng sự cân bằng này có thể tạo ra những lợi ích chất lượng lớn.
- Phần triển khai chính sử dụng các phép phân rã Laplacian, để lại các phép phân rã khác như DCT, wavelet, và bộ tự mã hóa đa tỉ lệ như những mở rộng hứa hẹn thay vì là điểm yếu của công thức cốt lõi.
- Thí nghiệm mô hình lớn tập trung vào việc tinh chỉnh FLUX cho một phân phối mục tiêu thay vì tuyên bố cải thiện mô hình tiên phong gốc trong mọi thiết lập triển khai, điều này giữ cho kết luận có phạm vi rõ ràng và vẫn có giá trị thực tiễn.
- DFM được xem tốt nhất như một khung làm việc tại thời điểm huấn luyện để sinh lũy tiến tốt hơn thay vì một bộ tăng tốc chỉ-suy-luận độc lập, và sự đơn giản của nó khiến nó bổ trợ cho các công trình hệ thống tương lai về lấy mẫu và triển khai nhanh hơn.
Cách diễn giải kết quả này
Bài báo này được đọc tốt nhất như một đóng góp mạnh mẽ và tinh tế cho việc sinh thị giác lũy tiến: DFM nắm bắt được những lợi ích của tổng hợp thô-đến-tinh với một mô hình Flow Matching duy nhất, cải thiện chất lượng ảnh và video trên các benchmark, và mang lại một con đường thực tiễn để tinh chỉnh tốt hơn các hệ thống sinh quy mô lớn.