ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali; Guha Balakrishnan; Vicente Ordonez

doi:10.1109/cvpr52733.2024.00631

← retour aux publications

publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.

article project page code pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de Rice University ont mis au point une méthode appelée ElasticDiffusion qui permet aux modèles d'IA texte-image existants de générer des images à des tailles et des formes pour lesquelles ils n'ont jamais été entraînés, sans aucun entraînement supplémentaire ni mémoire additionnelle significative. Le problème qu'ils ont entrepris de résoudre est une limitation fondamentale des modèles de diffusion populaires comme Stable Diffusion, qui sont entraînés sur des images de taille fixe — généralement 512×512 pixels — et tendent à produire des motifs répétitifs, des objets déformés ou des images incohérentes lorsqu'on leur demande de générer quelque chose de plus haut, de plus large ou à une résolution différente. L'idée clé de l'équipe était que les signaux mathématiques à l'intérieur d'un modèle de diffusion durant la génération d'image peuvent être scindés en deux rôles distincts : un signal « global » qui régit la structure et la composition d'ensemble d'une scène, et un signal « local » qui gère le détail fin au niveau des pixels. ElasticDiffusion exploite cette séparation en calculant le signal local dans de petits fragments à la résolution native du modèle et en calculant séparément le signal global à partir d'une image de référence de plus basse résolution, puis en agrandissant et en combinant les deux pour produire la sortie finale. Lors de tests sur des jeux de données de visages et de scènes, la méthode a surpassé MultiDiffusion — une approche antérieure d'assemblage de fragments — et a produit des résultats compétitifs face à Stable Diffusion XL, un modèle bien plus grand explicitement réentraîné pour des résolutions supérieures, tout en n'utilisant qu'environ un tiers de sa mémoire. La portée pratique est que les développeurs et les chercheurs pourraient utiliser un unique modèle de diffusion déjà entraîné pour générer des formats d'image en mode portrait, panoramique ou d'autres formats non standard sans le coût de calcul substantiel d'un réentraînement.

résumé

Les modèles de diffusion ont révolutionné la génération d'images ces dernières années, mais ils restent limités à quelques tailles et rapports d'aspect. Nous proposons ElasticDiffusion, une nouvelle méthode de décodage sans entraînement qui permet aux modèles de diffusion texte-image pré-entraînés de générer des images de tailles variées. ElasticDiffusion cherche à découpler la trajectoire de génération d'un modèle pré-entraîné en signaux locaux et globaux. Le signal local contrôle l'information de bas niveau au niveau des pixels et peut être estimé sur des fragments locaux, tandis que le signal global sert à maintenir la cohérence structurelle d'ensemble et est estimé à partir d'une image de référence. Nous testons notre méthode sur CelebA-HQ (visages) et LAION-COCO (objets/scènes intérieures/extérieures). Nos expériences et nos résultats qualitatifs montrent une qualité de cohérence d'image supérieure à travers les rapports d'aspect par rapport à MultiDiffusion et à la stratégie de décodage standard de Stable Diffusion. Page du projet : https://elasticdiffusion.github.io/

détails

DOI: 10.1109/cvpr52733.2024.00631
référence de revue: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
commentaire: Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

citation

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce qu'ElasticDiffusion permet ? ElasticDiffusion permet à un modèle de diffusion texte-image pré-entraîné de générer des images à des tailles et des rapports d'aspect au-delà de sa résolution d'entraînement d'origine, sans réentraînement.
Pourquoi les modèles de diffusion standard peinent-ils avec des tailles arbitraires ? Des modèles comme Stable Diffusion sont entraînés à des résolutions fixes, de sorte que le décodage direct sur des canevas bien plus grands, plus petits ou de forme différente peut créer des motifs répétés, une structure déformée ou une mauvaise composition.
Quelle est l'idée technique principale ? La méthode sépare les signaux de diffusion locaux et globaux : le détail local est estimé sur des fragments à résolution native, tandis que la structure globale est guidée par un signal de référence de plus basse résolution.
Comment ElasticDiffusion réduit-il les artefacts aux frontières des fragments ? Il utilise une estimation contextuelle des fragments, un guidage à résolution réduite et un rééchantillonnage, de sorte que les grandes images restent cohérentes tout en évitant un fort chevauchement entre fragments.
Comment se compare-t-il aux alternatives ? L'article rapporte une meilleure cohérence que Stable Diffusion standard et MultiDiffusion à travers les résolutions et les rapports d'aspect, avec des résultats compétitifs face à SDXL en 1024 par 1024 tout en utilisant un modèle de base plus petit.

Principales contributions

L'article introduit une stratégie de décodage sans entraînement pour la génération texte-image de taille arbitraire à l'aide de modèles de diffusion pré-entraînés existants.
Il identifie et exploite une séparation utile entre le guidage de direction de classe global et les signaux de détail inconditionnels locaux au sein de la diffusion guidée sans classifieur.
ElasticDiffusion propose une méthode efficace de fragmentation à chevauchement implicite qui réduit les discontinuités aux frontières sans le grand nombre d'appels avant requis par les méthodes à fragments fortement chevauchants.
La méthode ajoute un guidage à résolution réduite et un rééchantillonnage itératif pour améliorer la cohérence et le détail des images à des résolutions en dehors de la taille d'entraînement du modèle de base.
Les expériences sur CelebA-HQ et LAION-COCO montrent des gains pratiques à travers les résolutions carrées et de multiples rapports d'aspect, rendant l'approche utile pour les sorties en mode portrait, panoramique et autres formats non standard.

Limites et mises en garde

ElasticDiffusion dépend d'une estimation précise des signaux de diffusion globaux et locaux, de sorte que des artefacts occasionnels peuvent encore apparaître ; l'article aborde directement cela avec des mécanismes de guidage et de rééchantillonnage.
Le guidage à résolution réduite peut rendre les sorties légèrement plus floues lorsqu'il est appliqué fortement, mais c'est un contrôle pratique qui aide à éliminer les artefacts et à préserver la composition d'ensemble.
Le signal de contenu global est initialement estimé près de la résolution d'entraînement du modèle de base, de sorte que des sauts d'échelle extrêmement grands restent un cas difficile et une direction naturelle pour de futurs raffinements.
La méthode améliore le décodage de taille arbitraire plutôt que de remplacer des modèles de base plus puissants ; elle est particulièrement précieuse car elle peut aussi être appliquée par-dessus de meilleurs modèles de diffusion pré-entraînés.
L'évaluation se concentre sur la qualité de génération d'images et l'alignement au texte sur des jeux de données de visages et de scènes, laissant des usages spécialisés en aval tels que les mises en page de design ou l'édition d'images en production comme contextes de suivi prometteurs.

Comment interpréter ce résultat

Cet article se lit au mieux comme une avancée pratique solide pour le déploiement des modèles de diffusion : ElasticDiffusion rend les modèles texte-image à résolution fixe bien plus flexibles, produisant des sorties cohérentes de taille arbitraire sans le coût d'un réentraînement ou du passage à un modèle bien plus grand.