LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao; Pavel Suma; Ayush Sachdeva; Hao-Jen Wang; Giorgos Kordopatis-Zilos; Giorgos Tolias; Vicente Ordonez

← retour aux publications

publication

LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition. CVPR 2025. Nashville, TN.

article github pdf bibtex brut

Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université Rice et de l'Université technique tchèque de Prague ont mis au point un nouveau système de recherche d'images appelé LOCORE qui repense la manière dont les moteurs de recherche affinent et reclassent les images candidates après une première recherche large. Les systèmes de reclassement traditionnels comparent une image-requête à chaque image candidate individuellement, une paire à la fois, ce qui signifie qu'ils passent à côté des relations utiles entre les images candidates elles-mêmes, par exemple le fait que deux images de la galerie pourraient partager des caractéristiques qui, ensemble, fournissent une preuve plus solide de correspondance. LOCORE, à la place, traite la requête simultanément avec une liste restreinte entière allant jusqu'à 100 images candidates, en utilisant un modèle de transformeur à long contexte appelé Longformer, initialement développé pour de longs documents textuels, afin de capturer ces dépendances entre images au niveau de descripteurs visuels locaux à grain fin. Pour gérer les situations où la liste restreinte dépasse ce que le modèle peut contenir en mémoire à la fois, l'équipe a conçu une stratégie de fenêtre glissante qui parcourt la liste de candidats par blocs chevauchants. Lors de tests sur cinq jeux de données de référence couvrant des monuments, des produits, des articles de mode et des espèces d'oiseaux, LOCORE a systématiquement surpassé les méthodes de reclassement existantes, y compris les approches par paires utilisant des descripteurs locaux et les approches par liste utilisant des descripteurs globaux, tout en fonctionnant à une latence comparable ou inférieure et en utilisant nettement moins de mémoire. Ce travail importe car un meilleur reclassement améliore directement la précision des systèmes de recherche d'images, et l'approche démontre que des idées issues du traitement du langage naturel — en particulier la modélisation à long contexte et la classification au niveau des tokens — peuvent être transférées efficacement aux tâches de recherche visuelle.

résumé

Nous présentons LOCORE, Long-Context Re-ranker, un modèle qui prend en entrée des descripteurs locaux correspondant à une image-requête et à une liste d'images de la galerie, et produit des scores de similarité entre la requête et chaque image de la galerie. Ce modèle est utilisé pour la recherche d'images, où un premier classement est généralement effectué avec une mesure de similarité efficace, puis une liste restreinte des images les mieux classées est reclassée sur la base d'une mesure de similarité plus fine. Comparé aux méthodes existantes qui réalisent une estimation de similarité par paires avec des descripteurs locaux ou un reclassement par liste avec des descripteurs globaux, LOCORE est la première méthode à effectuer un reclassement par liste avec des descripteurs locaux. Pour y parvenir, nous exploitons des modèles de séquences à long contexte efficaces afin de capturer efficacement les dépendances entre la requête et les images de la galerie au niveau des descripteurs locaux. Lors du test, nous traitons de longues listes restreintes avec une stratégie de fenêtre glissante conçue pour surmonter les limitations de taille de contexte des modèles de séquences. Notre approche obtient des performances supérieures à celles des autres modèles de reclassement sur des bancs d'essai établis de recherche d'images de monuments (ROxf et RPar), de produits (SOP), d'articles de mode (In-Shop) et d'espèces d'oiseaux (CUB-200), tout en présentant une latence comparable à celle des modèles de reclassement par paires fondés sur des descripteurs locaux.

détails

commentaire: CVPR 2025

citation

@inproceedings{xiao2025locore,
  title = {LoCoRe: Image Re-ranking with Long-Context Sequence Modeling},
  author = {Xiao, Zilin and Suma, Pavel and Sachdeva, Ayush and Wang, Hao-Jen and Kordopatis-Zilos, Giorgos and Tolias, Giorgos and Ordonez, Vicente},
  year = {2025},
  booktitle = {Conf. on Computer Vision and Pattern Recognition. CVPR 2025},
  url = {https://arxiv.org/abs/2503.21772},
}

questions, principales contributions et limites de cet article générées automatiquement

Questions auxquelles cet article aide à répondre

Qu'est-ce que LOCORE et quel problème résout-il ? LOCORE est un modèle de reclassement d'images à long contexte qui traite conjointement une image-requête et une liste restreinte d'images de la galerie à l'aide de descripteurs locaux, améliorant le classement de deuxième étape utilisé dans les systèmes de recherche d'images.
En quoi LOCORE diffère-t-il des modèles de reclassement par paires ? Les méthodes par paires comparent la requête à chaque image de la galerie indépendamment, tandis que LOCORE modélise l'ensemble de la liste restreinte conjointement, ce qui lui permet d'exploiter les relations entre les images de la galerie ainsi que les correspondances requête-galerie.
Pourquoi LOCORE utilise-t-il un modèle de séquences à long contexte ? Reclasser jusqu'à 100 images de la galerie avec des descripteurs locaux crée une longue séquence de tokens, et l'attention de type Longformer permet au modèle de capturer des dépendances utiles avec une mémoire et une latence gérables.
Comment LOCORE gère-t-il les listes restreintes plus longues que sa fenêtre de contexte ? Il utilise une stratégie de fenêtre glissante chevauchante qui réutilise le modèle de reclassement par liste sur des parties de la liste restreinte, permettant à la méthode d'améliorer les classements au-delà de la taille de liste maximale vue en une seule passe avant.
Quels bancs d'essai de recherche LOCORE améliore-t-il ? L'article rapporte des résultats de reclassement de premier plan ou de pointe sur des bancs d'essai de recherche de monuments, de produits, de mode et d'espèces d'oiseaux, notamment ROxf/RPar, SOP, In-Shop et CUB-200.

Principales contributions

L'article introduit le premier cadre de reclassement d'images par liste qui opère au niveau des descripteurs locaux plutôt que de s'appuyer sur une correspondance locale par paires ou des descripteurs globaux par liste.
LOCORE reformule le reclassement d'images comme un problème de classification à long contexte au niveau des tokens, transférant des idées issues de l'extraction de spans en TAL et de l'étiquetage de séquences vers la recherche visuelle.
Le modèle utilise une attention globale sur la requête, des tokens séparateurs et un entraînement à galerie mélangée pour éviter les raccourcis positionnels et apprendre des interactions significatives entre descripteurs d'images.
Sur ROxf/RPar et leurs variantes à 1 million de distracteurs, LOCORE s'améliore par rapport aux modèles de reclassement à descripteurs locaux antérieurs tels que la vérification géométrique, RRT, CVNet et AMES, dans des configurations de descripteurs comparables.
La méthode améliore également les bancs d'essai de recherche par apprentissage métrique, notamment CUB-200, SOP et In-Shop, montrant que le reclassement par liste à descripteurs locaux est utile au-delà de la recherche de monuments.

Limites et mises en garde

LOCORE est un modèle de reclassement de deuxième étape plutôt qu'un remplacement de la recherche efficace de première étape, ce qui convient aux pipelines de recherche à grande échelle où un descripteur global compact restreint d'abord la liste de candidats.
La méthode dépend de descripteurs locaux de haute qualité issus de systèmes tels que DELG ou DINOv2, mais cela la rend complémentaire des avancées en extraction de caractéristiques locales plutôt que liée à une seule architecture de base.
Le traitement à long contexte dispose d'une fenêtre de contexte finie, de sorte que les listes restreintes très longues nécessitent une inférence par fenêtre glissante ; l'article montre que cette stratégie fonctionne bien et peut étendre les bénéfices au-delà de la taille de liste d'entraînement.
L'entraînement requiert de la prudence pour éviter les raccourcis positionnels issus du classement global initial, mais l'entraînement à galerie mélangée constitue une correction simple et efficace démontrée dans les ablations.
L'évaluation se concentre sur des bancs d'essai établis de recherche au niveau de l'instance, laissant les contextes de recherche de production plus larges et les collections d'images spécifiques à un domaine comme prochaines études de déploiement naturelles.

Comment interpréter ce résultat

Cet article se lit avant tout comme une solide contribution au reclassement en recherche d'images : LOCORE montre que la modélisation par liste à long contexte peut rendre les descripteurs locaux plus puissants, améliorant la précision sur divers bancs d'essai tout en gardant la latence et la mémoire praticables pour la recherche de deuxième étape.