One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Moayed Haji-Ali; Willi Menapace; Ivan Skorokhodov; Dogyun Park; Anil Kag; Michael Vasilkovsky; Sergey Tulyakov; Vicente Ordonez; Aliaksandr Siarohin

publication

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2026.

artículo github pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice y Snap Inc. han desarrollado una técnica llamada ELIT, abreviatura de Elastic Latent Interface Transformer, que otorga a los modelos de generación de imágenes y video la capacidad de equilibrar la velocidad de cómputo frente a la calidad de salida sobre la marcha, sin reentrenar el modelo para cada punto de operación deseado. El problema central que abordaron es que los modelos estándar de transformadores de difusión consumen la misma cantidad de cómputo en cada parche de una imagen, independientemente de si ese parche contiene detalles intrincados o cielo en blanco, y están fijados a un costo computacional vinculado a la resolución de la imagen. Para solucionarlo, el equipo insertó un pequeño conjunto de "tokens latentes" aprendibles entre las etapas de procesamiento tempranas y tardías del modelo, conectados por dos capas ligeras de atención cruzada que denominan Read y Write. Durante el entrenamiento, el modelo elimina aleatoriamente algunos de esos tokens latentes, lo que lo obliga a empaquetar la información más importante en los tokens que conserva con mayor frecuencia, produciendo una representación naturalmente ordenada. En el momento de la inferencia, un usuario simplemente puede elegir cuántos tokens latentes usar, ajustando directamente el cómputo hacia arriba o hacia abajo. Probado en varias arquitecturas populares, incluyendo DiT, U-ViT, HDiT y el modelo Qwen-Image de 20 mil millones de parámetros, ELIT mejoró de manera consistente las métricas de calidad de imagen, reduciendo las puntuaciones FID hasta en un 53% en los benchmarks de ImageNet de 512 píxeles, al mismo tiempo que permite a los usuarios reducir el cómputo aproximadamente entre un 35% y un 65% con solo una modesta pérdida de calidad. El enfoque también desbloquea una forma más económica de guía sin clasificador (classifier-free guidance) al usar la versión de pocos tokens del mismo modelo como una referencia "débil" integrada, reduciendo los costos de guía en aproximadamente un tercio.

resumen

Los transformadores de difusión (DiT) logran una alta calidad generativa, pero fijan los FLOPs a la resolución de la imagen, lo que limita los compromisos fundamentados entre latencia y calidad, y asignan el cómputo de manera uniforme a lo largo de los tokens espaciales de entrada, desperdiciando recursos en regiones poco importantes. Presentamos el Elastic Latent Interface Transformer (ELIT), un mecanismo plug-in y compatible con DiT que desacopla el tamaño de la imagen de entrada del cómputo. Nuestro enfoque inserta una interfaz latente, una secuencia de tokens de longitud variable y aprendible sobre la cual pueden operar bloques de transformador estándar. Capas ligeras de atención cruzada Read y Write trasladan información entre los tokens espaciales y los latentes y priorizan las regiones de entrada importantes. Al entrenar con eliminación aleatoria de los latentes finales, ELIT aprende a producir representaciones ordenadas por importancia, donde los latentes más tempranos capturan la estructura global mientras que los posteriores contienen información para refinar los detalles. En la inferencia, el número de latentes se puede ajustar dinámicamente para adaptarse a las restricciones de cómputo. ELIT es deliberadamente minimalista, añadiendo dos capas de atención cruzada mientras deja sin cambios el objetivo de rectified flow y la pila DiT. A lo largo de distintos conjuntos de datos y arquitecturas (DiT, U-ViT, HDiT, MM-DiT), ELIT ofrece mejoras consistentes. En ImageNet-1K 512px, ELIT logra una ganancia promedio del $35.3\%$ y del $39.6\%$ en las puntuaciones FID y FDD. Página del proyecto: https://snap-research.github.io/elit/

detalles

comentario: Project page: https://snap-research.github.io/elit/

cita

@inproceedings{hajiali2026one,
  title = {One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers},
  author = {Haji-Ali, Moayed and Menapace, Willi and Skorokhodov, Ivan and Park, Dogyun and Kag, Anil and Vasilkovsky, Michael and Tulyakov, Sergey and Ordonez, Vicente and Siarohin, Aliaksandr},
  year = {2026},
  booktitle = {IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2026},
  url = {https://arxiv.org/abs/2603.12245},
}

preguntas, contribuciones principales y limitaciones de este artículo generadas automáticamente

Preguntas que ayuda a responder este artículo

¿Qué es ELIT y qué problema aborda? ELIT es un mecanismo de interfaz latente plug-in para transformadores de difusión que desacopla el cómputo de la resolución de la imagen y permite que un único modelo generativo opere a lo largo de múltiples presupuestos de calidad y latencia.
¿Cómo cambia ELIT un transformador de difusión? Inserta un conjunto de tokens latentes de longitud variable entre una cabeza y una cola espaciales cortas, usando capas ligeras de atención cruzada Read y Write para trasladar información entre los tokens de imagen y la interfaz latente.
¿Cómo proporciona ELIT presupuestos de inferencia flexibles? Durante el entrenamiento, los tokens latentes finales se eliminan aleatoriamente para que los tokens más tempranos aprendan la información más importante, y en la inferencia los usuarios eligen cuántos tokens latentes conservar para controlar los FLOPs.
¿Qué ganancias empíricas reporta ELIT? En ImageNet-1K 512px, ELIT mejora sustancialmente FID y FDD a lo largo de los backbones DiT, U-ViT y HDiT, incluyendo una mejora de FID de hasta el 53 por ciento para la configuración DiT reportada en el artículo.
¿ELIT escala a modelos de generación grandes? Sí, el artículo aplica ELIT a Qwen-Image, un modelo MM-DiT de 20B, y muestra un compromiso suave entre cómputo y calidad con una aceleración de hasta aproximadamente 2.7x mientras mantiene puntuaciones sólidas en DPG-Bench.

Contribuciones principales

El artículo introduce una interfaz latente Read/Write minimalista que mantiene sin cambios el objetivo de rectified flow y la pila principal de DiT, lo que facilita injertar ELIT en familias existentes de transformadores de difusión.
ELIT demuestra cómputo adaptativo al usar la capa Read para traer regiones espaciales informativas a la interfaz latente en lugar de gastar el mismo cómputo en regiones fáciles o rellenadas.
La estrategia de entrenamiento multipresupuesto crea una secuencia latente ordenada por importancia, lo que permite que un único conjunto de pesos soporte muchos presupuestos de inferencia sin reentrenamiento.
Los experimentos muestran mejoras consistentes en la generación de imágenes a lo largo de DiT, U-ViT y HDiT, resultados favorables de generación de video en Kinetics-700, y compatibilidad con métodos de aceleración sin entrenamiento como TeaCache.
ELIT habilita guía económica y autoguía al usar versiones de menor presupuesto del mismo modelo como referencias débiles, reduciendo el costo de la guía mientras mejora la calidad de las muestras.

Limitaciones y advertencias

ELIT añade capas Read y Write además de la programación de tokens latentes, por lo que es un pequeño cambio arquitectónico en lugar de un método de aceleración puramente sin entrenamiento; el diseño plug-in y los amplios resultados en distintos backbones justifican bien esa complejidad añadida.
El experimento con Qwen-Image realiza un ajuste fino de un modelo grande existente con datos reales y sintéticos disponibles en lugar de reproducir la canalización de entrenamiento propietaria completa del modelo original, pero aún así aporta evidencia valiosa de que ELIT escala a sistemas MM-DiT de 20B parámetros.
Las configuraciones de menor presupuesto de Qwen-Image intercambian algo de calidad en los benchmarks por velocidad, lo cual es esperable en un modelo elástico y resulta útil porque los usuarios pueden elegir el presupuesto que se ajuste a sus necesidades de latencia y calidad.
La mayoría de las ablaciones detalladas se realizan en configuraciones de ImageNet condicionado por clase y Kinetics, lo que deja los detalles de despliegue de texto a imagen y las preferencias de calidad de cara al usuario como direcciones naturales de evaluación futura.
El método mejora la asignación de cómputo dentro de generadores de tipo DiT en lugar de reemplazar todas las demás técnicas de eficiencia, y la compatibilidad con TeaCache y las estrategias de guía sugiere que puede combinarse productivamente con aceleradores complementarios.

Cómo interpretar este resultado

Este artículo se lee mejor como una sólida contribución de sistemas y modelado para transformadores de difusión: ELIT da a un único modelo control práctico sobre los presupuestos de cómputo, mejora la calidad de generación a lo largo de varios backbones y escala la idea a grandes generadores de imágenes modernos manteniendo compactos los cambios arquitectónicos centrales.