LoCoRe: Image Re-ranking with Long-Context Sequence Modeling
publication

LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez.
Conf. on Computer Vision and Pattern Recognition. CVPR 2025. Nashville, TN.
Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Rice y de la Universidad Técnica Checa de Praga han desarrollado un nuevo sistema de recuperación de imágenes llamado LOCORE que replantea cómo los motores de búsqueda reducen y reordenan las imágenes candidatas tras una búsqueda inicial amplia. Los sistemas tradicionales de reordenamiento comparan una imagen de consulta con cada imagen candidata de forma individual, un par a la vez, lo que significa que pasan por alto relaciones útiles entre las propias imágenes candidatas; por ejemplo, el hecho de que dos imágenes de la galería puedan compartir características que, juntas, proporcionan evidencia más sólida de una coincidencia. En su lugar, LOCORE procesa la consulta junto con una lista corta completa de hasta 100 imágenes candidatas simultáneamente, usando un modelo de transformador de contexto largo llamado Longformer, desarrollado originalmente para documentos de texto extensos, para capturar esas dependencias entre imágenes a nivel de descriptores visuales locales detallados. Para manejar situaciones en las que la lista corta excede lo que el modelo puede contener en memoria de una sola vez, el equipo diseñó una estrategia de ventana deslizante que recorre la lista de candidatos en fragmentos solapados. En las pruebas a lo largo de cinco conjuntos de datos de referencia que abarcan monumentos, productos, artículos de moda y especies de aves, LOCORE superó de manera consistente a los métodos de reordenamiento existentes, incluidos los enfoques por pares que usan descriptores locales y los enfoques por listas que usan descriptores globales, ejecutándose con una latencia comparable o menor y usando significativamente menos memoria. El trabajo es importante porque un mejor reordenamiento mejora directamente la precisión de los sistemas de búsqueda de imágenes, y el enfoque demuestra que ideas del procesamiento del lenguaje natural, en particular el modelado de contexto largo y la clasificación a nivel de token, pueden transferirse de manera efectiva a las tareas de recuperación visual.

resumen

Presentamos LOCORE, Long-Context Re-ranker, un modelo que toma como entrada descriptores locales correspondientes a una imagen de consulta y a una lista de imágenes de la galería, y produce puntuaciones de similitud entre la consulta y cada imagen de la galería. Este modelo se utiliza para la recuperación de imágenes, donde típicamente se realiza un primer ranking con una medida de similitud eficiente, y luego se vuelve a clasificar una lista corta de las imágenes mejor posicionadas en función de una medida de similitud más detallada. En comparación con los métodos existentes que realizan estimación de similitud por pares con descriptores locales o reordenamiento por listas con descriptores globales, LOCORE es el primer método que realiza reordenamiento por listas con descriptores locales. Para lograrlo, aprovechamos modelos de secuencias de contexto largo eficientes para capturar de manera efectiva las dependencias entre la consulta y las imágenes de la galería a nivel de descriptor local. Durante la prueba, procesamos listas cortas largas con una estrategia de ventana deslizante adaptada para superar las limitaciones de tamaño de contexto de los modelos de secuencias. Nuestro enfoque logra un rendimiento superior en comparación con otros reordenadores en benchmarks consolidados de recuperación de imágenes de monumentos (ROxf y RPar), productos (SOP), artículos de moda (In-Shop) y especies de aves (CUB-200), a la vez que tiene una latencia comparable a la de los reordenadores de descriptores locales por pares.

detalles

comentario
CVPR 2025

cita

@inproceedings{xiao2025locore,
  title = {LoCoRe: Image Re-ranking with Long-Context Sequence Modeling},
  author = {Xiao, Zilin and Suma, Pavel and Sachdeva, Ayush and Wang, Hao-Jen and Kordopatis-Zilos, Giorgos and Tolias, Giorgos and Ordonez, Vicente},
  year = {2025},
  booktitle = {Conf. on Computer Vision and Pattern Recognition. CVPR 2025},
  url = {https://arxiv.org/abs/2503.21772},
}

preguntas, contribuciones principales y limitaciones de este artículo generadas automáticamente

Preguntas que ayuda a responder este artículo

  • ¿Qué es LOCORE y qué problema aborda? LOCORE es un modelo de reordenamiento de imágenes de contexto largo que procesa conjuntamente una imagen de consulta y una lista corta de imágenes de la galería usando descriptores locales, mejorando el ranking de segunda etapa utilizado en los sistemas de recuperación de imágenes.
  • ¿En qué se diferencia LOCORE de los reordenadores por pares? Los métodos por pares comparan la consulta con cada imagen de la galería de forma independiente, mientras que LOCORE modela toda la lista corta en conjunto para poder explotar las relaciones entre las imágenes de la galería así como las coincidencias entre consulta y galería.
  • ¿Por qué LOCORE usa un modelo de secuencias de contexto largo? Reordenar hasta 100 imágenes de la galería con descriptores locales crea una secuencia de tokens larga, y la atención de tipo Longformer permite que el modelo capture dependencias útiles con un consumo de memoria y latencia manejables.
  • ¿Cómo maneja LOCORE listas cortas más largas que su ventana de contexto? Usa una estrategia de ventana deslizante solapada que reutiliza el reordenador por listas a través de partes de la lista corta, lo que permite que el método mejore los rankings más allá del tamaño máximo de lista visto en una sola pasada hacia adelante.
  • ¿Qué benchmarks de recuperación mejora LOCORE? El artículo reporta resultados de reordenamiento líderes o de estado del arte en benchmarks de recuperación de monumentos, productos, moda y especies de aves, incluidos ROxf/RPar, SOP, In-Shop y CUB-200.

Contribuciones principales

  • El artículo introduce el primer marco de reordenamiento de imágenes por listas que opera a nivel de descriptor local en lugar de depender de coincidencias locales por pares o de descriptores globales por listas.
  • LOCORE reformula el reordenamiento de imágenes como un problema de clasificación a nivel de token de contexto largo, transfiriendo ideas de la extracción de spans y el etiquetado de secuencias del NLP a la recuperación visual.
  • El modelo usa atención global de la consulta, tokens separadores y entrenamiento con galería barajada para evitar atajos posicionales y aprender interacciones significativas de descriptores entre imágenes.
  • A lo largo de ROxf/RPar y sus variantes con 1M de distractores, LOCORE mejora respecto a reordenadores de descriptores locales previos como la verificación geométrica, RRT, CVNet y AMES bajo configuraciones de descriptores comparables.
  • El método también mejora benchmarks de recuperación de aprendizaje métrico incluyendo CUB-200, SOP e In-Shop, mostrando que el reordenamiento por listas con descriptores locales es útil más allá de la recuperación de monumentos.

Limitaciones y advertencias

  • LOCORE es un reordenador de segunda etapa en lugar de un reemplazo de la recuperación eficiente de primera etapa, lo cual es apropiado para canalizaciones de búsqueda a gran escala donde un descriptor global compacto reduce primero la lista de candidatos.
  • El método depende de descriptores locales de alta calidad provenientes de sistemas como DELG o DINOv2, pero esto lo hace complementario a los avances en la extracción de características locales en lugar de estar atado a un único backbone.
  • El procesamiento de contexto largo tiene una ventana de contexto finita, por lo que las listas cortas muy largas requieren inferencia con ventana deslizante; el artículo muestra que esta estrategia funciona bien y puede extender los beneficios más allá del tamaño de lista de entrenamiento.
  • El entrenamiento requiere cuidado para evitar atajos posicionales del ranking global inicial, pero el entrenamiento con galería barajada es una solución simple y efectiva demostrada en las ablaciones.
  • La evaluación se centra en benchmarks consolidados de recuperación a nivel de instancia, lo que deja como estudios de despliegue naturales y siguientes los entornos de búsqueda de producción más amplios y las colecciones de imágenes de dominios específicos.

Cómo interpretar este resultado

Este artículo se lee mejor como una sólida contribución al reordenamiento en la recuperación de imágenes: LOCORE muestra que el modelado por listas de contexto largo puede hacer más potentes a los descriptores locales, mejorando la precisión a lo largo de diversos benchmarks mientras mantiene la latencia y la memoria prácticas para la recuperación de segunda etapa.