LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao; Pavel Suma; Ayush Sachdeva; Hao-Jen Wang; Giorgos Kordopatis-Zilos; Giorgos Tolias; Vicente Ordonez

← назад к публикациям

publication

LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez.

Conf. on Computer Vision and Pattern Recognition. CVPR 2025. Nashville, TN.

статья github pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University и Czech Technical University in Prague разработали новую систему поиска изображений под названием LOCORE, которая переосмысливает то, как поисковые системы сужают круг кандидатов и переранжируют их после первоначального широкого поиска. Традиционные системы переранжирования сравнивают изображение-запрос с каждым изображением-кандидатом по отдельности, по одной паре за раз, из-за чего они упускают полезные взаимосвязи между самими изображениями-кандидатами — например, тот факт, что два изображения из галереи могут обладать общими признаками, которые вместе дают более веское свидетельство совпадения. Вместо этого LOCORE обрабатывает запрос вместе с целым коротким списком из до 100 изображений-кандидатов одновременно, используя трансформер с длинным контекстом под названием Longformer, изначально разработанный для длинных текстовых документов, чтобы захватывать эти межизображенческие зависимости на уровне детальных локальных визуальных дескрипторов. Чтобы справляться с ситуациями, когда короткий список превышает то, что модель может уместить в памяти за один раз, команда разработала стратегию скользящего окна, которая проходит по списку кандидатов перекрывающимися фрагментами. В тестировании на пяти бенчмарковых наборах данных, охватывающих достопримечательности, товары, предметы одежды и виды птиц, LOCORE стабильно превосходил существующие методы переранжирования, включая попарные подходы на локальных дескрипторах и списочные подходы на глобальных дескрипторах, при этом работая с сопоставимой или меньшей задержкой и используя значительно меньше памяти. Работа важна, потому что более качественное переранжирование напрямую повышает точность систем поиска изображений, а сам подход демонстрирует, что идеи из обработки естественного языка — в частности, моделирование длинного контекста и классификация на уровне токенов — могут быть эффективно перенесены на задачи визуального поиска.

аннотация

Мы представляем LOCORE (Long-Context Re-ranker) — модель, которая принимает на вход локальные дескрипторы, соответствующие изображению-запросу и списку изображений из галереи, и выдаёт оценки сходства между запросом и каждым изображением галереи. Эта модель используется для поиска изображений, где обычно сначала выполняется первичное ранжирование с помощью эффективной меры сходства, а затем короткий список наиболее высоко ранжированных изображений переранжируется на основе более детальной меры сходства. По сравнению с существующими методами, которые выполняют попарную оценку сходства с помощью локальных дескрипторов или списочное переранжирование с помощью глобальных дескрипторов, LOCORE является первым методом, выполняющим списочное переранжирование с помощью локальных дескрипторов. Чтобы добиться этого, мы используем эффективные последовательностные модели с длинным контекстом для эффективного захвата зависимостей между запросом и изображениями галереи на уровне локальных дескрипторов. Во время тестирования мы обрабатываем длинные короткие списки с помощью стратегии скользящего окна, разработанной для преодоления ограничений размера контекста последовательностных моделей. Наш подход достигает превосходной производительности по сравнению с другими переранжировщиками на устоявшихся бенчмарках поиска изображений для достопримечательностей (ROxf и RPar), товаров (SOP), предметов одежды (In-Shop) и видов птиц (CUB-200), при этом обладая сопоставимой задержкой с попарными переранжировщиками на локальных дескрипторах.

подробности

комментарий: CVPR 2025

цитирование

@inproceedings{xiao2025locore,
  title = {LoCoRe: Image Re-ranking with Long-Context Sequence Modeling},
  author = {Xiao, Zilin and Suma, Pavel and Sachdeva, Ayush and Wang, Hao-Jen and Kordopatis-Zilos, Giorgos and Tolias, Giorgos and Ordonez, Vicente},
  year = {2025},
  booktitle = {Conf. on Computer Vision and Pattern Recognition. CVPR 2025},
  url = {https://arxiv.org/abs/2503.21772},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что такое LOCORE и какую проблему он решает? LOCORE — это модель переранжирования изображений с длинным контекстом, которая совместно обрабатывает изображение-запрос и короткий список изображений галереи с использованием локальных дескрипторов, улучшая второй этап ранжирования, применяемый в системах поиска изображений.
Чем LOCORE отличается от попарных переранжировщиков? Попарные методы сравнивают запрос с каждым изображением галереи независимо, тогда как LOCORE моделирует весь короткий список вместе, что позволяет ему использовать взаимосвязи как между изображениями галереи, так и совпадения запрос-галерея.
Почему LOCORE использует последовательностную модель с длинным контекстом? Переранжирование до 100 изображений галереи с помощью локальных дескрипторов создаёт длинную последовательность токенов, а внимание в стиле Longformer позволяет модели захватывать полезные зависимости при управляемом объёме памяти и задержке.
Как LOCORE обрабатывает короткие списки длиннее своего контекстного окна? Он использует стратегию скользящего окна с перекрытием, которая повторно применяет списочный переранжировщик к частям короткого списка, позволяя методу улучшать ранжирование за пределами максимального размера списка, наблюдаемого за один прямой проход.
Какие бенчмарки поиска улучшает LOCORE? В статье сообщается о лидирующих результатах или результатах на современном уровне (state-of-the-art) в переранжировании на бенчмарках поиска достопримечательностей, товаров, одежды и видов птиц, включая ROxf/RPar, SOP, In-Shop и CUB-200.

Основные вклады

В статье представлен первый фреймворк списочного переранжирования изображений, работающий на уровне локальных дескрипторов, а не опирающийся на попарное локальное сопоставление или списочные глобальные дескрипторы.
LOCORE переформулирует переранжирование изображений как задачу классификации на уровне токенов с длинным контекстом, перенося идеи из извлечения спанов и разметки последовательностей в NLP в визуальный поиск.
Модель использует глобальное внимание к запросу, токены-разделители и обучение с перемешиванием галереи, чтобы избежать позиционных шорткатов и научиться осмысленным межизображенческим взаимодействиям дескрипторов.
На ROxf/RPar и их вариантах с 1M отвлекающих изображений LOCORE превосходит предыдущие переранжировщики на локальных дескрипторах, такие как геометрическая верификация, RRT, CVNet и AMES, при сопоставимых настройках дескрипторов.
Метод также улучшает бенчмарки поиска на основе Metric Learning, включая CUB-200, SOP и In-Shop, показывая, что списочное переранжирование на локальных дескрипторах полезно не только для поиска достопримечательностей.

Ограничения и предостережения

LOCORE является переранжировщиком второго этапа, а не заменой эффективного поиска первого этапа, что уместно для крупномасштабных поисковых конвейеров, где компактный глобальный дескриптор сначала сужает список кандидатов.
Метод зависит от высококачественных локальных дескрипторов из таких систем, как DELG или DINOv2, но это делает его дополняющим достижения в извлечении локальных признаков, а не привязанным к одному бэкбону.
Обработка длинного контекста имеет конечное контекстное окно, поэтому очень длинные короткие списки требуют инференса со скользящим окном; в статье показано, что эта стратегия работает хорошо и может расширить преимущества за пределы размера списка при обучении.
Обучение требует внимательности, чтобы избежать позиционных шорткатов от первоначального глобального ранжирования, но обучение с перемешиванием галереи является простым и эффективным решением, продемонстрированным в абляциях.
Оценка сосредоточена на устоявшихся бенчмарках поиска на уровне экземпляров, оставляя более широкие производственные сценарии поиска и доменно-специфичные коллекции изображений в качестве естественных следующих исследований по развёртыванию.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как значимый вклад в переранжирование при поиске изображений: LOCORE показывает, что списочное моделирование с длинным контекстом может сделать локальные дескрипторы более мощными, повышая точность на разнообразных бенчмарках, сохраняя при этом задержку и память на практичном уровне для поиска второго этапа.