ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali; Guha Balakrishnan; Vicente Ordonez

doi:10.1109/cvpr52733.2024.00631

← quay lại danh sách công bố

publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.

bài báo project page code pdf bibtex thô

Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại Rice University đã phát triển một phương pháp gọi là ElasticDiffusion, cho phép các mô hình AI văn bản-sang-ảnh hiện có sinh ra hình ảnh ở các kích thước và hình dạng mà chúng chưa bao giờ được huấn luyện, mà không cần bất kỳ huấn luyện bổ sung nào hay bộ nhớ phụ trội đáng kể nào. Vấn đề mà họ đặt ra để giải quyết là một giới hạn cơ bản của các mô hình khuếch tán phổ biến như Stable Diffusion, vốn được huấn luyện trên các ảnh có kích thước cố định — thường là 512×512 pixel — và có xu hướng tạo ra các mẫu lặp lại, các đối tượng bị méo, hoặc các ảnh thiếu mạch lạc khi được yêu cầu sinh ra thứ gì đó cao hơn, rộng hơn, hoặc ở một độ phân giải khác. Hiểu biết then chốt của nhóm là các tín hiệu toán học bên trong một mô hình khuếch tán trong quá trình sinh ảnh có thể được tách thành hai vai trò riêng biệt: một tín hiệu "toàn cục" chi phối cấu trúc và bố cục tổng thể của một cảnh, và một tín hiệu "cục bộ" xử lý chi tiết tinh tế ở cấp độ pixel. ElasticDiffusion khai thác sự tách biệt này bằng cách tính toán tín hiệu cục bộ theo các vùng nhỏ ở độ phân giải gốc của mô hình và tính toán riêng tín hiệu toàn cục từ một ảnh tham chiếu độ phân giải thấp hơn, sau đó nâng tỉ lệ và kết hợp cả hai để tạo ra đầu ra cuối cùng. Trong các thử nghiệm trên các bộ dữ liệu khuôn mặt và cảnh, phương pháp này vượt trội hơn MultiDiffusion — một cách tiếp cận ghép vùng trước đây — và tạo ra các kết quả cạnh tranh với Stable Diffusion XL, một mô hình lớn hơn nhiều được huấn luyện lại một cách tường minh cho các độ phân giải cao hơn, trong khi chỉ sử dụng khoảng một phần ba bộ nhớ của nó. Ý nghĩa thực tiễn là các nhà phát triển và nhà nghiên cứu có thể sử dụng một mô hình khuếch tán đã được huấn luyện sẵn duy nhất để sinh ra các định dạng ảnh chân dung, màn ảnh rộng, hoặc các định dạng phi tiêu chuẩn khác mà không phải chịu chi phí tính toán đáng kể của việc huấn luyện lại.

tóm tắt

Các mô hình khuếch tán đã cách mạng hóa việc sinh ảnh trong những năm gần đây, tuy nhiên chúng vẫn bị giới hạn ở một vài kích thước và tỉ lệ khung hình. Chúng tôi đề xuất ElasticDiffusion, một phương pháp giải mã không cần huấn luyện mới mẻ, cho phép các mô hình khuếch tán văn bản-sang-ảnh đã được tiền huấn luyện sinh ra ảnh với nhiều kích thước khác nhau. ElasticDiffusion cố gắng tách rời quỹ đạo sinh của một mô hình đã được tiền huấn luyện thành các tín hiệu cục bộ và toàn cục. Tín hiệu cục bộ kiểm soát thông tin pixel ở cấp thấp và có thể được ước lượng trên các vùng cục bộ, trong khi tín hiệu toàn cục được sử dụng để duy trì tính nhất quán về cấu trúc tổng thể và được ước lượng bằng một ảnh tham chiếu. Chúng tôi kiểm thử phương pháp của mình trên CelebA-HQ (khuôn mặt) và LAION-COCO (đối tượng/cảnh trong nhà/ngoài trời). Các thí nghiệm và kết quả định tính của chúng tôi cho thấy chất lượng mạch lạc của ảnh vượt trội qua các tỉ lệ khung hình so với MultiDiffusion và chiến lược giải mã tiêu chuẩn của Stable Diffusion. Trang dự án: https://elasticdiffusion.github.io/

chi tiết

DOI: 10.1109/cvpr52733.2024.00631
tham chiếu tạp chí: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
ghi chú: Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

trích dẫn

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

câu hỏi, đóng góp chính và hạn chế của bài báo này được tạo tự động

Câu hỏi mà bài báo này giúp trả lời

ElasticDiffusion cho phép làm gì? ElasticDiffusion cho phép một mô hình khuếch tán văn bản-sang-ảnh đã được tiền huấn luyện sinh ra ảnh ở các kích thước và tỉ lệ khung hình vượt ra ngoài độ phân giải huấn luyện gốc của nó mà không cần huấn luyện lại.
Tại sao các mô hình khuếch tán tiêu chuẩn gặp khó khăn với các kích thước tùy ý? Các mô hình như Stable Diffusion được huấn luyện ở độ phân giải cố định, nên việc giải mã trực tiếp trên các khung vẽ lớn hơn, nhỏ hơn, hoặc có hình dạng khác đi nhiều có thể tạo ra các mẫu lặp lại, cấu trúc bị méo, hoặc bố cục kém.
Ý tưởng kỹ thuật chính là gì? Phương pháp tách biệt các tín hiệu khuếch tán cục bộ và toàn cục: chi tiết cục bộ được ước lượng trên các vùng ở độ phân giải gốc, trong khi cấu trúc toàn cục được dẫn dắt bởi một tín hiệu tham chiếu độ phân giải thấp hơn.
ElasticDiffusion giảm các tạo tác ở ranh giới vùng như thế nào? Nó sử dụng ước lượng vùng theo ngữ cảnh, hướng dẫn ở độ phân giải giảm, và lấy mẫu lại để các ảnh lớn vẫn mạch lạc trong khi tránh sự chồng lấn nặng nề giữa các vùng.
Nó so sánh với các lựa chọn thay thế như thế nào? Bài báo báo cáo tính mạch lạc mạnh hơn so với Stable Diffusion tiêu chuẩn và MultiDiffusion qua các độ phân giải và tỉ lệ khung hình, với các kết quả cạnh tranh với SDXL ở 1024 nhân 1024 trong khi sử dụng một mô hình cơ sở nhỏ hơn.

Đóng góp chính

Bài báo giới thiệu một chiến lược giải mã không cần huấn luyện cho việc sinh ảnh văn bản-sang-ảnh ở kích thước tùy ý bằng cách sử dụng các mô hình khuếch tán đã được tiền huấn luyện hiện có.
Nó xác định và khai thác một sự tách biệt hữu ích giữa hướng dẫn theo hướng lớp toàn cục và các tín hiệu chi tiết vô điều kiện cục bộ bên trong khuếch tán được hướng dẫn không cần bộ phân loại.
ElasticDiffusion cung cấp một phương pháp chia vùng với chồng lấn ngầm hiệu quả, làm giảm các gián đoạn ở ranh giới mà không cần số lượng lớn các lượt gọi truyền xuôi như các phương pháp chia vùng chồng lấn nặng đòi hỏi.
Phương pháp bổ sung hướng dẫn ở độ phân giải giảm và lấy mẫu lại lặp đi lặp lại để cải thiện tính mạch lạc và chi tiết của ảnh ở các độ phân giải nằm ngoài kích thước huấn luyện của mô hình cơ sở.
Các thí nghiệm trên CelebA-HQ và LAION-COCO cho thấy những lợi ích thực tiễn qua các độ phân giải vuông và nhiều tỉ lệ khung hình, khiến cách tiếp cận hữu ích cho các đầu ra chân dung, màn ảnh rộng, và các đầu ra phi tiêu chuẩn khác.

Hạn chế và lưu ý

ElasticDiffusion phụ thuộc vào việc ước lượng chính xác các tín hiệu khuếch tán toàn cục và cục bộ, nên đôi khi các tạo tác vẫn có thể xuất hiện; bài báo trực tiếp giải quyết điều này bằng các cơ chế hướng dẫn và lấy mẫu lại.
Hướng dẫn ở độ phân giải giảm có thể khiến đầu ra hơi mờ hơn khi được sử dụng mạnh, nhưng đó là một cơ chế kiểm soát thực tiễn giúp loại bỏ các tạo tác và bảo toàn bố cục tổng thể.
Tín hiệu nội dung toàn cục ban đầu được ước lượng gần với độ phân giải huấn luyện của mô hình cơ sở, nên những bước nhảy tỉ lệ cực lớn vẫn là một trường hợp thách thức và là một hướng tự nhiên cho việc tinh chỉnh trong tương lai.
Phương pháp cải thiện việc giải mã ở kích thước tùy ý thay vì thay thế các mô hình cơ sở mạnh hơn; nó đặc biệt có giá trị vì nó cũng có thể được áp dụng trên nền các mô hình khuếch tán đã được tiền huấn luyện tốt hơn.
Việc đánh giá tập trung vào chất lượng sinh ảnh và sự căn chỉnh với văn bản trên các bộ dữ liệu khuôn mặt và cảnh, để lại các ứng dụng hạ nguồn chuyên biệt như bố cục thiết kế hoặc chỉnh sửa ảnh sản xuất như những thiết lập tiếp nối hứa hẹn.

Cách diễn giải kết quả này

Bài báo này được đọc tốt nhất như một tiến bộ thực tiễn mạnh mẽ cho việc triển khai mô hình khuếch tán: ElasticDiffusion làm cho các mô hình văn bản-sang-ảnh độ phân giải cố định trở nên linh hoạt hơn nhiều, tạo ra các đầu ra kích thước tùy ý mạch lạc mà không phải chịu chi phí huấn luyện lại hoặc chuyển sang một mô hình lớn hơn nhiều.