FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

Xuehai He; Jian Zheng; Jacob Zhiyuan Fang; Robinson Piramuthu; Mohit Bansal; Vicente Ordonez; Gunnar A Sigurdsson; Nanyun Peng; Xin Eric Wang

publication

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation

Xuehai He, Jian Zheng, Jacob Zhiyuan Fang, Robinson Piramuthu, Mohit Bansal, Vicente Ordonez, Gunnar A Sigurdsson, Nanyun Peng, Xin Eric Wang.

Transactions of Machine Learning Research, TMLR 2025.

논문 pdf 원본 bibtex

연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

UC 산타크루즈, Amazon, UNC 채플힐, 라이스 대학교, UCLA의 연구자들은 여러 유형의 시각적 안내를 동시에 사용하여 AI 이미지 생성기를 제어하는 더 효율적인 방법을 개발했다. Stable Diffusion 같은 현재의 text-to-image diffusion 모델은 edge map, depth map, segmentation map 같은 구조적 입력으로 조종될 수 있지만, 이러한 제어 가능한 시스템을 학습하는 데는 일반적으로 입력 유형이 추가될수록 선형적으로 늘어나는 상당한 계산 자원이 필요하다. FlexEControl이라는 연구팀의 새로운 시스템은 더 넓은 기계 학습 문헌에서 Kronecker decomposition이라는 수학적 기법을 차용하여, 각 양식마다 별도의 파라미터를 학습하는 대신 서로 다른 입력 양식을 처리하는 컴팩트한 공유 가중치 세트를 만듦으로써 이를 해결한다. 그 결과 UniControlNet이라는 선도적인 비교 시스템보다 학습 가능한 파라미터를 41% 더 적게, 메모리를 30% 더 적게 사용하면서, 반복당 학습 시간을 약 5.7초에서 2.1초로 단축하는 모델이 탄생했다. 단순한 효율성을 넘어, FlexEControl은 여러 충돌하거나 중복되는 입력을 다룰 때 (예를 들어 동일한 장면의 두 가지 다른 edge map) 더 나은 성능을 보이는데, 이는 기존 방법들이 혼란스럽거나 일관성 없는 이미지를 생성하는 경향이 있는 시나리오이다. 연구자들은 모델이 올바른 공간 영역에 주의를 기울이고 출력을 해당 텍스트 프롬프트와 정렬하도록 강제하는 두 가지 특화된 학습 손실 함수를 추가하여 이를 달성했다. 인간 평가에서 두 시스템 모두에 동일한 유형의 다중 입력이 주어졌을 때, 주석자들은 UniControlNet보다 FlexEControl의 출력을 64%의 경우에 선호했다. 이 연구는 제어 가능한 이미지 생성을 더 저렴하고 복잡한 혼합 입력을 더 잘 처리할 수 있게 만드는 것이 제한된 컴퓨팅 자원으로 작업하는 개발자와 연구자에게 이러한 도구에 대한 접근성을 의미 있게 넓힐 수 있기 때문에 중요하다.

초록

제어 가능한 text-to-image(T2I) diffusion 모델은 텍스트 프롬프트와 edge map 같은 다른 양식의 의미적 입력 모두에 조건화하여 이미지를 생성한다. 그러나 현재의 제어 가능한 T2I 방법들은, 특히 동일하거나 다양한 양식의 다중 입력에 조건화할 때, 효율성과 충실도와 관련된 과제에 흔히 직면한다. 본 논문에서 우리는 제어 가능한 T2I 생성을 위한 새로운 유연하고 효율적인 방법인 FlexEControl을 제안한다. FlexEControl의 핵심은 다양한 입력 유형의 간소화된 통합을 가능하게 하는 독특한 가중치 분해 전략이다. 이 접근법은 생성된 이미지의 제어에 대한 충실도를 향상시킬 뿐만 아니라, 멀티모달 조건화에 일반적으로 수반되는 계산 부담을 크게 줄인다. 우리의 접근법은 Uni-ControlNet과 비교하여 학습 가능한 파라미터를 41%, 메모리 사용량을 30% 감소시킨다. 또한 데이터 효율성을 두 배로 높이고, 다양한 양식의 다중 입력 조건의 안내 하에 유연하게 이미지를 생성할 수 있다.

인용

@article{he2025flexecontrol,
  title = {FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation},
  author = {He, Xuehai and Zheng, Jian and Fang, Jacob Zhiyuan and Piramuthu, Robinson and Bansal, Mohit and Ordonez, Vicente and Sigurdsson, Gunnar A and Peng, Nanyun and Wang, Xin Eric},
  year = {2025},
  journal = {Transactions of Machine Learning Research, TMLR 2025.},
  url = {https://arxiv.org/abs/2405.04834},
}