ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali; Guha Balakrishnan; Vicente Ordonez

doi:10.1109/cvpr52733.2024.00631

← назад к публикациям

publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.

статья project page code pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University разработали метод под названием ElasticDiffusion, который позволяет существующим моделям ИИ для генерации изображений из текста создавать картинки тех размеров и форм, на которых они никогда не обучались, без какого-либо дополнительного обучения или существенного расхода дополнительной памяти. Проблема, которую они взялись решать, — это фундаментальное ограничение популярных диффузионных моделей вроде Stable Diffusion, которые обучаются на изображениях фиксированного размера — обычно 512×512 пикселей — и склонны выдавать повторяющиеся узоры, искажённые объекты или несогласованные изображения, когда их просят сгенерировать что-то более высокое, широкое или с другим разрешением. Ключевая идея команды состояла в том, что математические сигналы внутри диффузионной модели во время генерации изображения можно разделить на две различные роли: «глобальный» сигнал, управляющий общей структурой и композицией сцены, и «локальный» сигнал, отвечающий за тонкие детали на уровне пикселей. ElasticDiffusion использует это разделение, вычисляя локальный сигнал в небольших патчах в нативном разрешении модели и отдельно вычисляя глобальный сигнал из эталонного изображения более низкого разрешения, после чего масштабирует и объединяет оба для получения итогового результата. В тестах на наборах данных лиц и сцен метод превзошёл MultiDiffusion — прежний подход на основе сшивания патчей — и дал результаты, конкурентоспособные со Stable Diffusion XL, гораздо более крупной моделью, специально переобученной для более высоких разрешений, используя при этом лишь около трети её памяти. Практическая значимость в том, что разработчики и исследователи могли бы использовать единственную уже обученную диффузионную модель для генерации изображений в портретном, широкоэкранном или ином нестандартном формате без существенных вычислительных затрат на переобучение.

аннотация

Диффузионные модели произвели революцию в генерации изображений в последние годы, однако они по-прежнему ограничены несколькими размерами и соотношениями сторон. Мы предлагаем ElasticDiffusion — новый метод декодирования, не требующий обучения, который позволяет предобученным диффузионным моделям генерации изображений из текста создавать изображения различных размеров. ElasticDiffusion пытается разделить траекторию генерации предобученной модели на локальный и глобальный сигналы. Локальный сигнал управляет низкоуровневой пиксельной информацией и может оцениваться на локальных патчах, тогда как глобальный сигнал используется для поддержания общей структурной согласованности и оценивается с помощью эталонного изображения. Мы тестируем наш метод на CelebA-HQ (лица) и LAION-COCO (объекты/внутренние/внешние сцены). Наши эксперименты и качественные результаты показывают превосходное качество согласованности изображений при разных соотношениях сторон по сравнению с MultiDiffusion и стандартной стратегией декодирования Stable Diffusion. Страница проекта: https://elasticdiffusion.github.io/

подробности

DOI: 10.1109/cvpr52733.2024.00631
ссылка на журнал: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
комментарий: Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

цитирование

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что позволяет ElasticDiffusion? ElasticDiffusion позволяет предобученной диффузионной модели генерации изображений из текста создавать изображения с размерами и соотношениями сторон, выходящими за пределы её исходного разрешения обучения, без переобучения.
Почему стандартные диффузионные модели плохо справляются с произвольными размерами? Модели вроде Stable Diffusion обучаются на фиксированных разрешениях, поэтому прямое декодирование на гораздо больших, меньших или иначе сформированных холстах может порождать повторяющиеся узоры, искажённую структуру или плохую композицию.
В чём основная техническая идея? Метод разделяет локальный и глобальный диффузионные сигналы: локальная детализация оценивается на патчах в нативном разрешении, тогда как глобальная структура направляется эталонным сигналом более низкого разрешения.
Как ElasticDiffusion уменьшает артефакты на границах патчей? Он использует контекстную оценку патчей, направляющий сигнал пониженного разрешения и повторную выборку, чтобы большие изображения оставались согласованными, избегая при этом сильного перекрытия между патчами.
Как он соотносится с альтернативами? В статье сообщается о большей согласованности, чем у стандартного Stable Diffusion и MultiDiffusion, при разных разрешениях и соотношениях сторон, с результатами, конкурентоспособными с SDXL при 1024 на 1024, при использовании меньшей базовой модели.

Основные вклады

Статья представляет не требующую обучения стратегию декодирования для генерации изображений из текста произвольного размера с использованием существующих предобученных диффузионных моделей.
Она выявляет и использует полезное разделение между глобальным направляющим сигналом класса и локальными безусловными сигналами детализации внутри диффузии с classifier-free guidance.
ElasticDiffusion предлагает эффективный метод разбиения на патчи с неявным перекрытием, который уменьшает разрывы на границах без большого числа прямых проходов, требуемых методами с сильно перекрывающимися патчами.
Метод добавляет направляющий сигнал пониженного разрешения и итеративную повторную выборку для улучшения согласованности и детализации изображений при разрешениях за пределами размера обучения базовой модели.
Эксперименты на CelebA-HQ и LAION-COCO показывают практический выигрыш при квадратных разрешениях и множестве соотношений сторон, что делает подход полезным для портретных, широкоэкранных и других нестандартных результатов.

Ограничения и предостережения

ElasticDiffusion зависит от точной оценки глобального и локального диффузионных сигналов, поэтому изредка артефакты всё же могут появляться; статья напрямую решает это с помощью механизмов направляющего сигнала и повторной выборки.
Направляющий сигнал пониженного разрешения может делать результаты немного более размытыми при сильном применении, но это практичный регулятор, помогающий устранять артефакты и сохранять общую композицию.
Глобальный сигнал содержания изначально оценивается вблизи разрешения обучения базовой модели, поэтому крайне большие скачки масштаба остаются сложным случаем и естественным направлением для будущего совершенствования.
Метод улучшает декодирование произвольного размера, а не заменяет более сильные базовые модели; он особенно ценен тем, что может также применяться поверх более качественных предобученных диффузионных моделей.
Оценка сосредоточена на качестве генерации изображений и соответствии тексту на наборах данных лиц и сцен, оставляя специализированные целевые применения, такие как дизайнерские макеты или промышленное редактирование изображений, в качестве многообещающих последующих направлений.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как весомый практический шаг вперёд для развёртывания диффузионных моделей: ElasticDiffusion делает модели генерации изображений из текста с фиксированным разрешением гораздо более гибкими, создавая согласованные результаты произвольного размера без затрат на переобучение или переход на гораздо более крупную модель.