ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali; Guha Balakrishnan; Vicente Ordonez

doi:10.1109/cvpr52733.2024.00631

← 논문 목록으로 돌아가기

publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.

논문 project page code pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

라이스 대학교의 연구진은 기존의 텍스트-이미지 AI 모델이 추가 학습이나 상당한 추가 메모리 없이도 한 번도 학습하지 않은 크기와 형태로 이미지를 생성할 수 있게 하는 ElasticDiffusion이라는 방법을 개발하였다. 이들이 풀고자 한 문제는 Stable Diffusion 같은 인기 있는 확산 모델의 근본적인 한계인데, 이러한 모델은 일반적으로 512×512 픽셀의 고정된 크기 이미지로 학습되어, 더 높거나, 더 넓거나, 다른 해상도의 무언가를 생성하라고 요청받으면 반복적인 패턴, 왜곡된 객체, 또는 일관성 없는 이미지를 만드는 경향이 있다. 연구팀의 핵심 통찰은 이미지 생성 중 확산 모델 내부의 수학적 신호가 두 가지 뚜렷한 역할로 나뉠 수 있다는 것이었다. 즉, 장면의 전체 구조와 구성을 관장하는 "전역" 신호와 세밀한 픽셀 수준 디테일을 처리하는 "지역" 신호이다. ElasticDiffusion은 이 분리를 활용하여 모델의 고유 해상도에서 작은 패치로 지역 신호를 계산하고, 별도로 저해상도 참조 이미지로부터 전역 신호를 계산한 다음, 둘 다를 업스케일하고 결합하여 최종 출력을 생성한다. 얼굴 및 장면 데이터셋에서의 테스트에서, 이 방법은 이전의 패치 이어 붙이기 접근법인 MultiDiffusion을 능가하였고, 더 높은 해상도를 위해 명시적으로 재학습된 훨씬 더 큰 모델인 Stable Diffusion XL과 경쟁할 만한 결과를 내면서도 그 메모리의 약 3분의 1만 사용하였다. 실용적 의의는 개발자와 연구자가 재학습의 상당한 계산 비용 없이 단일하게 이미 학습된 확산 모델을 사용하여 세로 모드, 와이드스크린, 또는 기타 비표준 이미지 형식을 생성할 수 있다는 점이다.

초록

확산 모델은 최근 몇 년간 이미지 생성에 혁신을 가져왔으나, 여전히 소수의 크기와 종횡비로 제한되어 있다. 우리는 사전학습된 텍스트-이미지 확산 모델이 다양한 크기의 이미지를 생성할 수 있게 하는 새로운 학습 없는 디코딩 방법인 ElasticDiffusion을 제안한다. ElasticDiffusion은 사전학습된 모델의 생성 궤적을 지역 신호와 전역 신호로 분리하려고 시도한다. 지역 신호는 저수준의 픽셀 정보를 제어하며 지역 패치에서 추정될 수 있고, 전역 신호는 전체적인 구조적 일관성을 유지하는 데 사용되며 참조 이미지로 추정된다. 우리는 이 방법을 CelebA-HQ(얼굴)와 LAION-COCO(객체/실내/야외 장면)에서 테스트한다. 우리의 실험과 정성적 결과는 MultiDiffusion 및 Stable Diffusion의 표준 디코딩 전략과 비교하여 종횡비 전반에 걸쳐 우수한 이미지 일관성 품질을 보여 준다. 프로젝트 페이지: https://elasticdiffusion.github.io/

세부 정보

DOI: 10.1109/cvpr52733.2024.00631
저널 정보: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
비고: Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

인용

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

이 논문의 자동 생성된 질문, 주요 기여 및 한계

이 논문이 답하는 데 도움이 되는 질문

ElasticDiffusion은 무엇을 가능하게 하는가? ElasticDiffusion은 사전학습된 텍스트-이미지 확산 모델이 재학습 없이 원래의 학습 해상도를 넘어서는 크기와 종횡비로 이미지를 생성할 수 있게 한다.
표준 확산 모델은 왜 임의의 크기에서 어려움을 겪는가? Stable Diffusion 같은 모델은 고정된 해상도에서 학습되므로, 훨씬 더 크거나, 더 작거나, 다르게 생긴 캔버스에서의 직접 디코딩은 반복된 패턴, 왜곡된 구조, 또는 빈약한 구성을 만들 수 있다.
주요 기술적 아이디어는 무엇인가? 이 방법은 지역 신호와 전역 신호를 분리한다. 지역 디테일은 고유 해상도 패치에서 추정되고, 전역 구조는 저해상도 참조 신호에 의해 안내된다.
ElasticDiffusion은 패치 경계 아티팩트를 어떻게 줄이는가? 문맥적 패치 추정, 저해상도 안내, 재샘플링을 사용하여 패치 간 과도한 겹침을 피하면서도 큰 이미지가 일관성을 유지하도록 한다.
대안과 비교하면 어떠한가? 논문은 해상도와 종횡비 전반에 걸쳐 표준 Stable Diffusion 및 MultiDiffusion보다 강한 일관성을 보고하며, 더 작은 기본 모델을 사용하면서 1024×1024에서 SDXL과 경쟁할 만한 결과를 낸다.

주요 기여

논문은 기존의 사전학습된 확산 모델을 사용하여 임의 크기의 텍스트-이미지 생성을 위한 학습 없는 디코딩 전략을 도입한다.
논문은 classifier-free guided 확산 내부의 전역 클래스 방향 안내 신호와 지역 무조건 디테일 신호 사이의 유용한 분리를 식별하고 활용한다.
ElasticDiffusion은 과도하게 겹치는 패치 방법이 요구하는 다수의 순방향 호출 없이 경계 불연속을 줄이는 효율적인 암묵적 겹침 패치 방법을 제공한다.
이 방법은 기본 모델의 학습 크기를 벗어난 해상도에서 이미지 일관성과 디테일을 개선하기 위해 저해상도 안내와 반복적 재샘플링을 추가한다.
CelebA-HQ와 LAION-COCO에서의 실험은 정사각형 해상도와 여러 종횡비 전반에 걸쳐 실용적인 향상을 보여, 이 접근법을 세로, 와이드스크린, 기타 비표준 출력에 유용하게 만든다.

한계 및 유의 사항

ElasticDiffusion은 전역 및 지역 확산 신호를 정확하게 추정하는 데 의존하므로 가끔 아티팩트가 여전히 나타날 수 있다. 논문은 안내 및 재샘플링 메커니즘으로 이를 직접 다룬다.
저해상도 안내는 강하게 사용될 때 출력을 다소 흐릿하게 만들 수 있지만, 이는 아티팩트를 제거하고 전체 구성을 보존하는 데 도움이 되는 실용적인 제어 수단이다.
전역 콘텐츠 신호는 초기에 기본 모델의 학습 해상도 근처에서 추정되므로, 극단적으로 큰 규모의 도약은 여전히 어려운 경우이자 향후 개선을 위한 자연스러운 방향으로 남는다.
이 방법은 더 강력한 기본 모델을 대체하는 것이 아니라 임의 크기 디코딩을 개선한다. 더 나은 사전학습 확산 모델 위에도 적용될 수 있다는 점에서 특히 가치가 있다.
평가는 얼굴 및 장면 데이터셋에서의 이미지 생성 품질과 텍스트 정렬에 초점을 맞추어, 디자인 레이아웃이나 운영 환경 이미지 편집 같은 특수한 다운스트림 용도를 유망한 후속 설정으로 남겨둔다.

이 결과를 읽는 방법

이 논문은 확산 모델 배포를 위한 강력한 실용적 발전으로 읽는 것이 가장 좋다. ElasticDiffusion은 고정 해상도의 텍스트-이미지 모델을 훨씬 더 유연하게 만들어, 재학습이나 훨씬 더 큰 모델로의 전환 비용 없이 일관성 있는 임의 크기 출력을 생성한다.