ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali; Guha Balakrishnan; Vicente Ordonez

doi:10.1109/cvpr52733.2024.00631

← voltar às publicações

publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.

artigo project page code pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Rice University desenvolveram um método chamado ElasticDiffusion que permite que modelos de IA de texto para imagem existentes gerem imagens em tamanhos e formatos para os quais nunca foram treinados, sem qualquer treinamento adicional ou memória extra significativa. O problema que eles se propuseram a resolver é uma limitação fundamental de modelos de difusão populares como o Stable Diffusion, que são treinados em imagens de tamanho fixo — tipicamente 512×512 pixels — e tendem a produzir padrões repetitivos, objetos distorcidos ou imagens incoerentes quando solicitados a gerar algo mais alto, mais largo ou em uma resolução diferente. A principal percepção da equipe foi que os sinais matemáticos dentro de um modelo de difusão durante a geração de imagens podem ser divididos em dois papéis distintos: um sinal "global" que governa a estrutura e a composição geral de uma cena, e um sinal "local" que lida com detalhes finos no nível de pixel. O ElasticDiffusion explora essa separação calculando o sinal local em pequenos trechos na resolução nativa do modelo e calculando separadamente o sinal global a partir de uma imagem de referência de resolução mais baixa, e então ampliando e combinando ambos para produzir a saída final. Em testes em conjuntos de dados de rostos e cenas, o método superou o MultiDiffusion — uma abordagem anterior de costura de trechos — e produziu resultados competitivos com o Stable Diffusion XL, um modelo muito maior explicitamente retreinado para resoluções mais altas, usando apenas cerca de um terço de sua memória. A relevância prática é que desenvolvedores e pesquisadores poderiam usar um único modelo de difusão já treinado para gerar imagens em modo retrato, widescreen ou outros formatos não padronizados sem o custo computacional substancial de retreinar.

resumo

Os modelos de difusão revolucionaram a geração de imagens nos últimos anos, mas ainda estão limitados a alguns tamanhos e proporções. Propomos o ElasticDiffusion, um novo método de decodificação sem treinamento que permite que modelos de difusão de texto para imagem pré-treinados gerem imagens com diversos tamanhos. O ElasticDiffusion tenta desacoplar a trajetória de geração de um modelo pré-treinado em sinais locais e globais. O sinal local controla informações de pixel de baixo nível e pode ser estimado em trechos locais, enquanto o sinal global é usado para manter a consistência estrutural geral e é estimado com uma imagem de referência. Testamos nosso método no CelebA-HQ (rostos) e no LAION-COCO (objetos/cenas internas/externas). Nossos experimentos e resultados qualitativos mostram qualidade de coerência de imagem superior entre as proporções em comparação com o MultiDiffusion e a estratégia de decodificação padrão do Stable Diffusion. Página do projeto: https://elasticdiffusion.github.io/

detalhes

DOI: 10.1109/cvpr52733.2024.00631
referência do periódico: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
comentário: Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

citação

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

perguntas, principais contribuições e limitações deste artigo geradas automaticamente

Perguntas que este artigo ajuda a responder

O que o ElasticDiffusion possibilita? O ElasticDiffusion permite que um modelo de difusão de texto para imagem pré-treinado gere imagens em tamanhos e proporções além de sua resolução original de treinamento sem retreinar.
Por que os modelos de difusão padrão têm dificuldade com tamanhos arbitrários? Modelos como o Stable Diffusion são treinados em resoluções fixas, de modo que a decodificação direta em telas muito maiores, menores ou de formato diferente pode criar padrões repetidos, estrutura distorcida ou composição ruim.
Qual é a principal ideia técnica? O método separa os sinais de difusão locais e globais: o detalhe local é estimado em trechos de resolução nativa, enquanto a estrutura global é guiada por um sinal de referência de resolução mais baixa.
Como o ElasticDiffusion reduz artefatos nas bordas dos trechos? Ele usa estimativa contextual de trechos, orientação de resolução reduzida e reamostragem, de modo que imagens grandes permaneçam coerentes evitando ao mesmo tempo grande sobreposição entre os trechos.
Como ele se compara às alternativas? O artigo relata maior coerência do que o Stable Diffusion padrão e o MultiDiffusion em diferentes resoluções e proporções, com resultados competitivos com o SDXL a 1024 por 1024 usando um modelo de base menor.

Principais contribuições

O artigo introduz uma estratégia de decodificação sem treinamento para a geração de texto para imagem de tamanho arbitrário usando modelos de difusão pré-treinados existentes.
Ele identifica e explora uma separação útil entre a orientação global de direção de classe e os sinais locais de detalhe incondicional dentro da difusão guiada sem classificador.
O ElasticDiffusion fornece um método eficiente de divisão em trechos com sobreposição implícita que reduz descontinuidades nas bordas sem o grande número de chamadas diretas exigidas por métodos de trechos com grande sobreposição.
O método adiciona orientação de resolução reduzida e reamostragem iterativa para melhorar a coerência e o detalhe da imagem em resoluções fora do tamanho de treinamento do modelo de base.
Experimentos no CelebA-HQ e no LAION-COCO mostram ganhos práticos em diferentes resoluções quadradas e múltiplas proporções, tornando a abordagem útil para saídas em retrato, widescreen e outros formatos não padronizados.

Limitações e ressalvas

O ElasticDiffusion depende da estimativa precisa dos sinais de difusão globais e locais, de modo que artefatos ocasionais ainda podem aparecer; o artigo aborda isso diretamente com mecanismos de orientação e reamostragem.
A orientação de resolução reduzida pode tornar as saídas ligeiramente mais embaçadas quando usada com intensidade, mas é um controle prático que ajuda a remover artefatos e preservar a composição geral.
O sinal de conteúdo global é inicialmente estimado próximo da resolução de treinamento do modelo de base, de modo que saltos de escala extremamente grandes permanecem um caso desafiador e uma direção natural para refinamento futuro.
O método aprimora a decodificação de tamanho arbitrário em vez de substituir modelos de base mais fortes; ele é especialmente valioso porque também pode ser aplicado sobre modelos de difusão pré-treinados melhores.
A avaliação concentra-se na qualidade da geração de imagens e no alinhamento com o texto em conjuntos de dados de rostos e cenas, deixando usos downstream especializados, como layouts de design ou edição de imagens em produção, como cenários de acompanhamento promissores.

Como interpretar este resultado

Este artigo é melhor compreendido como um forte avanço prático para a implantação de modelos de difusão: o ElasticDiffusion torna os modelos de texto para imagem de resolução fixa muito mais flexíveis, produzindo saídas coerentes de tamanho arbitrário sem o custo de retreinar ou migrar para um modelo muito maior.