FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

Xuehai He; Jian Zheng; Jacob Zhiyuan Fang; Robinson Piramuthu; Mohit Bansal; Vicente Ordonez; Gunnar A Sigurdsson; Nanyun Peng; Xin Eric Wang

publication

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

Xuehai He, Jian Zheng, Jacob Zhiyuan Fang, Robinson Piramuthu, Mohit Bansal, Vicente Ordonez, Gunnar A Sigurdsson, Nanyun Peng, Xin Eric Wang.

Transactions of Machine Learning Research, TMLR 2025.

artigo pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da UC Santa Cruz, da Amazon, da UNC Chapel Hill, da Rice University e da UCLA desenvolveram uma forma mais eficiente de controlar geradores de imagens de IA usando múltiplos tipos de orientação visual simultaneamente. Modelos de difusão de texto para imagem atuais como o Stable Diffusion podem ser direcionados por entradas estruturais como mapas de bordas, mapas de profundidade e mapas de segmentação, mas treinar esses sistemas controláveis tipicamente exige recursos computacionais substanciais que crescem linearmente à medida que mais tipos de entrada são adicionados. O novo sistema da equipe, chamado FlexEControl, aborda isso tomando emprestada uma técnica matemática chamada decomposição de Kronecker da literatura mais ampla de aprendizado de máquina, usando-a para criar um conjunto compacto de pesos compartilhados que lida com diferentes modalidades de entrada em vez de aprender parâmetros separados para cada uma. O resultado é um modelo que usa 41% menos parâmetros treináveis e 30% menos memória do que um sistema comparável de ponta chamado UniControlNet, ao mesmo tempo em que reduz o tempo de treinamento por iteração de cerca de 5,7 segundos para 2,1 segundos. Para além da eficiência bruta, o FlexEControl também se sai melhor ao lidar com múltiplas entradas conflitantes ou redundantes — por exemplo, dois mapas de bordas diferentes da mesma cena — um cenário em que os métodos existentes tendem a produzir imagens confusas ou incoerentes. Os pesquisadores conseguiram isso adicionando duas funções de perda de treinamento especializadas que forçam o modelo a prestar atenção às regiões espaciais corretas e a alinhar suas saídas com os prompts textuais correspondentes. Em avaliações humanas, os anotadores preferiram as saídas do FlexEControl 64% das vezes em relação às do UniControlNet quando ambos os sistemas recebiam múltiplas entradas do mesmo tipo. O trabalho é relevante porque tornar a geração controlável de imagens mais barata e mais capaz de lidar com entradas complexas e mistas poderia ampliar de forma significativa o acesso a essas ferramentas para desenvolvedores e pesquisadores que trabalham com recursos computacionais limitados.

resumo

Modelos de difusão de texto para imagem (T2I) controláveis geram imagens condicionadas tanto a prompts textuais quanto a entradas semânticas de outras modalidades, como mapas de bordas. No entanto, os métodos T2I controláveis atuais comumente enfrentam desafios relacionados à eficiência e à fidelidade, especialmente ao condicionar a múltiplas entradas de uma mesma modalidade ou de modalidades diversas. Neste artigo, propomos um novo método Flexível e Eficiente, o FlexEControl, para a geração T2I controlável. No cerne do FlexEControl está uma estratégia única de decomposição de pesos, que permite a integração simplificada de vários tipos de entrada. Essa abordagem não apenas aprimora a fidelidade da imagem gerada ao controle, mas também reduz significativamente a sobrecarga computacional tipicamente associada ao condicionamento multimodal. Nossa abordagem alcança uma redução de 41% nos parâmetros treináveis e de 30% no uso de memória em comparação com o Uni-ControlNet. Além disso, ela dobra a eficiência de dados e pode gerar imagens de forma flexível sob a orientação de múltiplas condições de entrada de várias modalidades.

citação

@article{he2025flexecontrol,
  title = {FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation},
  author = {He, Xuehai and Zheng, Jian and Fang, Jacob Zhiyuan and Piramuthu, Robinson and Bansal, Mohit and Ordonez, Vicente and Sigurdsson, Gunnar A and Peng, Nanyun and Wang, Xin Eric},
  year = {2025},
  journal = {Transactions of Machine Learning Research, TMLR 2025.},
  url = {https://arxiv.org/abs/2405.04834},
}