ElasticDiffusion: Training-free Arbitrary Size Image Generation
publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.
Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.
Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University разработали метод под названием ElasticDiffusion, который позволяет существующим моделям ИИ для генерации изображений из текста создавать картинки тех размеров и форм, на которых они никогда не обучались, без какого-либо дополнительного обучения или существенного расхода дополнительной памяти. Проблема, которую они взялись решать, — это фундаментальное ограничение популярных диффузионных моделей вроде Stable Diffusion, которые обучаются на изображениях фиксированного размера — обычно 512×512 пикселей — и склонны выдавать повторяющиеся узоры, искажённые объекты или несогласованные изображения, когда их просят сгенерировать что-то более высокое, широкое или с другим разрешением. Ключевая идея команды состояла в том, что математические сигналы внутри диффузионной модели во время генерации изображения можно разделить на две различные роли: «глобальный» сигнал, управляющий общей структурой и композицией сцены, и «локальный» сигнал, отвечающий за тонкие детали на уровне пикселей. ElasticDiffusion использует это разделение, вычисляя локальный сигнал в небольших патчах в нативном разрешении модели и отдельно вычисляя глобальный сигнал из эталонного изображения более низкого разрешения, после чего масштабирует и объединяет оба для получения итогового результата. В тестах на наборах данных лиц и сцен метод превзошёл MultiDiffusion — прежний подход на основе сшивания патчей — и дал результаты, конкурентоспособные со Stable Diffusion XL, гораздо более крупной моделью, специально переобученной для более высоких разрешений, используя при этом лишь около трети её памяти. Практическая значимость в том, что разработчики и исследователи могли бы использовать единственную уже обученную диффузионную модель для генерации изображений в портретном, широкоэкранном или ином нестандартном формате без существенных вычислительных затрат на переобучение.

аннотация

Диффузионные модели произвели революцию в генерации изображений в последние годы, однако они по-прежнему ограничены несколькими размерами и соотношениями сторон. Мы предлагаем ElasticDiffusion — новый метод декодирования, не требующий обучения, который позволяет предобученным диффузионным моделям генерации изображений из текста создавать изображения различных размеров. ElasticDiffusion пытается разделить траекторию генерации предобученной модели на локальный и глобальный сигналы. Локальный сигнал управляет низкоуровневой пиксельной информацией и может оцениваться на локальных патчах, тогда как глобальный сигнал используется для поддержания общей структурной согласованности и оценивается с помощью эталонного изображения. Мы тестируем наш метод на CelebA-HQ (лица) и LAION-COCO (объекты/внутренние/внешние сцены). Наши эксперименты и качественные результаты показывают превосходное качество согласованности изображений при разных соотношениях сторон по сравнению с MultiDiffusion и стандартной стратегией декодирования Stable Diffusion. Страница проекта: https://elasticdiffusion.github.io/

подробности

DOI
10.1109/cvpr52733.2024.00631
ссылка на журнал
2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
комментарий
Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

цитирование

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

  • Что позволяет ElasticDiffusion? ElasticDiffusion позволяет предобученной диффузионной модели генерации изображений из текста создавать изображения с размерами и соотношениями сторон, выходящими за пределы её исходного разрешения обучения, без переобучения.
  • Почему стандартные диффузионные модели плохо справляются с произвольными размерами? Модели вроде Stable Diffusion обучаются на фиксированных разрешениях, поэтому прямое декодирование на гораздо больших, меньших или иначе сформированных холстах может порождать повторяющиеся узоры, искажённую структуру или плохую композицию.
  • В чём основная техническая идея? Метод разделяет локальный и глобальный диффузионные сигналы: локальная детализация оценивается на патчах в нативном разрешении, тогда как глобальная структура направляется эталонным сигналом более низкого разрешения.
  • Как ElasticDiffusion уменьшает артефакты на границах патчей? Он использует контекстную оценку патчей, направляющий сигнал пониженного разрешения и повторную выборку, чтобы большие изображения оставались согласованными, избегая при этом сильного перекрытия между патчами.
  • Как он соотносится с альтернативами? В статье сообщается о большей согласованности, чем у стандартного Stable Diffusion и MultiDiffusion, при разных разрешениях и соотношениях сторон, с результатами, конкурентоспособными с SDXL при 1024 на 1024, при использовании меньшей базовой модели.

Основные вклады

  • Статья представляет не требующую обучения стратегию декодирования для генерации изображений из текста произвольного размера с использованием существующих предобученных диффузионных моделей.
  • Она выявляет и использует полезное разделение между глобальным направляющим сигналом класса и локальными безусловными сигналами детализации внутри диффузии с classifier-free guidance.
  • ElasticDiffusion предлагает эффективный метод разбиения на патчи с неявным перекрытием, который уменьшает разрывы на границах без большого числа прямых проходов, требуемых методами с сильно перекрывающимися патчами.
  • Метод добавляет направляющий сигнал пониженного разрешения и итеративную повторную выборку для улучшения согласованности и детализации изображений при разрешениях за пределами размера обучения базовой модели.
  • Эксперименты на CelebA-HQ и LAION-COCO показывают практический выигрыш при квадратных разрешениях и множестве соотношений сторон, что делает подход полезным для портретных, широкоэкранных и других нестандартных результатов.

Ограничения и предостережения

  • ElasticDiffusion зависит от точной оценки глобального и локального диффузионных сигналов, поэтому изредка артефакты всё же могут появляться; статья напрямую решает это с помощью механизмов направляющего сигнала и повторной выборки.
  • Направляющий сигнал пониженного разрешения может делать результаты немного более размытыми при сильном применении, но это практичный регулятор, помогающий устранять артефакты и сохранять общую композицию.
  • Глобальный сигнал содержания изначально оценивается вблизи разрешения обучения базовой модели, поэтому крайне большие скачки масштаба остаются сложным случаем и естественным направлением для будущего совершенствования.
  • Метод улучшает декодирование произвольного размера, а не заменяет более сильные базовые модели; он особенно ценен тем, что может также применяться поверх более качественных предобученных диффузионных моделей.
  • Оценка сосредоточена на качестве генерации изображений и соответствии тексту на наборах данных лиц и сцен, оставляя специализированные целевые применения, такие как дизайнерские макеты или промышленное редактирование изображений, в качестве многообещающих последующих направлений.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как весомый практический шаг вперёд для развёртывания диффузионных моделей: ElasticDiffusion делает модели генерации изображений из текста с фиксированным разрешением гораздо более гибкими, создавая согласованные результаты произвольного размера без затрат на переобучение или переход на гораздо более крупную модель.