ElasticDiffusion: Training-free Arbitrary Size Image Generation
publication

ElasticDiffusion: Training-free Arbitrary Size Image Generation

Moayed Haji Ali, Guha Balakrishnan, Vicente Ordonez.
Conf. on Computer Vision and Pattern Recognition CVPR 2024. Seattle, WA.
实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气,面向普通读者撰写。

莱斯大学的研究人员开发了一种名为 ElasticDiffusion 的方法,它让现有的文本生成图像 AI 模型能够生成它们从未训练过的尺寸和形状的图片,且无需任何额外训练或显著的额外内存。他们着手解决的问题是 Stable Diffusion 等流行扩散模型的一个根本性局限:这些模型在固定尺寸的图像上训练——通常是 512×512 像素——当被要求生成更高、更宽或不同分辨率的内容时,往往会产生重复的图案、扭曲的物体或不连贯的图像。团队的关键洞见是:扩散模型在图像生成期间内部的数学信号可以拆分为两种不同的作用:一个支配场景整体结构和构图的"全局"信号,以及一个处理精细像素级细节的"局部"信号。ElasticDiffusion 利用这种分离,在模型的原生分辨率下以小图块计算局部信号,并单独从一张较低分辨率的参考图像计算全局信号,然后将两者上采样并组合以产生最终输出。在人脸和场景数据集上的测试中,该方法优于 MultiDiffusion(一种先前的图块拼接方法),并产生了可与 Stable Diffusion XL 相媲美的结果——后者是一个为更高分辨率而专门重新训练的大得多的模型——同时仅使用其约三分之一的内存。其实际意义在于,开发者和研究人员可以使用单一的、已经训练好的扩散模型来生成竖屏、宽屏或其他非标准图像格式,而无需重新训练所带来的巨大计算成本。

摘要

近年来,扩散模型彻底变革了图像生成,但它们仍局限于少数几种尺寸和宽高比。我们提出了 ElasticDiffusion,一种新颖的免训练解码方法,使预训练的文本生成图像扩散模型能够生成各种尺寸的图像。ElasticDiffusion 试图将预训练模型的生成轨迹解耦为局部信号和全局信号。局部信号控制低层级的像素信息,可在局部图块上估计;全局信号用于保持整体结构一致性,并借助一张参考图像进行估计。我们在 CelebA-HQ(人脸)和 LAION-COCO(物体/室内/室外场景)上测试了我们的方法。我们的实验和定性结果表明,相比 MultiDiffusion 和 Stable Diffusion 的标准解码策略,本方法在各种宽高比下都具有更优的图像连贯性质量。项目主页:https://elasticdiffusion.github.io/

详情

DOI
10.1109/cvpr52733.2024.00631
期刊引用
2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
备注
Accepted at CVPR 2024. Project Page: https://elasticdiffusion.github.io/

引用

@inproceedings{ali2024elasticdiffusion,
  title = {ElasticDiffusion: Training-free Arbitrary Size Image Generation},
  author = {Ali, Moayed Haji and Balakrishnan, Guha and Ordonez, Vicente},
  year = {2024},
  booktitle = {Conf. on Computer Vision and Pattern Recognition CVPR 2024},
  url = {https://arxiv.org/abs/2311.18822},
}

自动生成的本文相关问题、主要贡献与局限

本文有助于回答的问题

  • ElasticDiffusion 实现了什么?ElasticDiffusion 让预训练的文本生成图像扩散模型能够在超出其原始训练分辨率的尺寸和宽高比下生成图像,且无需重新训练。
  • 为什么标准扩散模型难以处理任意尺寸?Stable Diffusion 等模型是在固定分辨率下训练的,因此在更大、更小或形状不同的画布上直接解码可能产生重复图案、扭曲结构或糟糕的构图。
  • 主要的技术思路是什么?该方法分离局部和全局扩散信号:局部细节在原生分辨率的图块上估计,而全局结构则由一个较低分辨率的参考信号引导。
  • ElasticDiffusion 如何减少图块边界伪影?它使用带上下文的图块估计、降分辨率引导和重采样,使大图像保持连贯,同时避免图块之间的大量重叠。
  • 它与其他替代方案相比如何?论文报告,在各种分辨率和宽高比下,本方法的连贯性强于标准的 Stable Diffusion 和 MultiDiffusion,并且在 1024×1024 下以更小的基础模型取得了可与 SDXL 相媲美的结果。

主要贡献

  • 论文引入了一种免训练的解码策略,利用现有的预训练扩散模型进行任意尺寸的文本生成图像。
  • 它识别并利用了无分类器引导扩散内部全局类别方向引导与局部无条件细节信号之间一种有用的分离。
  • ElasticDiffusion 提供了一种高效的隐式重叠图块化方法,在不需要重叠图块方法所需大量前向调用的情况下减少边界不连续。
  • 该方法加入了降分辨率引导和迭代重采样,以在基础模型训练尺寸之外的分辨率下改善图像连贯性和细节。
  • 在 CelebA-HQ 和 LAION-COCO 上的实验表明,在各种方形分辨率和多种宽高比下都有实际收益,使该方法适用于竖屏、宽屏和其他非标准输出。

局限与注意事项

  • ElasticDiffusion 依赖于准确估计全局和局部扩散信号,因此偶尔仍可能出现伪影;论文通过引导和重采样机制直接应对了这一点。
  • 降分辨率引导在强力使用时可能使输出略显模糊,但它是一种实用的控制手段,有助于去除伪影并保持整体构图。
  • 全局内容信号最初是在接近基础模型训练分辨率处估计的,因此极大的尺度跳跃仍是一个具有挑战性的情形,也是未来改进的自然方向。
  • 该方法改进的是任意尺寸解码,而非替代更强的基础模型;它尤其有价值,因为它也可以应用在更好的预训练扩散模型之上。
  • 评估聚焦于人脸和场景数据集上的图像生成质量与文本对齐,将设计版式或生产级图像编辑等专门的下游用途留作有前景的后续场景。

如何理解这一结果

这篇论文最好被理解为扩散模型部署方面一项有力的实用进展:ElasticDiffusion 使固定分辨率的文本生成图像模型变得灵活得多,能够在不付出重新训练或切换到大得多模型的代价下,产生连贯的任意尺寸输出。