LoCoRe: Image Re-ranking with Long-Context Sequence Modeling
publication

LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez.
Conf. on Computer Vision and Pattern Recognition. CVPR 2025. Nashville, TN.
Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Rice University и Czech Technical University in Prague разработали новую систему поиска изображений под названием LOCORE, которая переосмысливает то, как поисковые системы сужают круг кандидатов и переранжируют их после первоначального широкого поиска. Традиционные системы переранжирования сравнивают изображение-запрос с каждым изображением-кандидатом по отдельности, по одной паре за раз, из-за чего они упускают полезные взаимосвязи между самими изображениями-кандидатами — например, тот факт, что два изображения из галереи могут обладать общими признаками, которые вместе дают более веское свидетельство совпадения. Вместо этого LOCORE обрабатывает запрос вместе с целым коротким списком из до 100 изображений-кандидатов одновременно, используя трансформер с длинным контекстом под названием Longformer, изначально разработанный для длинных текстовых документов, чтобы захватывать эти межизображенческие зависимости на уровне детальных локальных визуальных дескрипторов. Чтобы справляться с ситуациями, когда короткий список превышает то, что модель может уместить в памяти за один раз, команда разработала стратегию скользящего окна, которая проходит по списку кандидатов перекрывающимися фрагментами. В тестировании на пяти бенчмарковых наборах данных, охватывающих достопримечательности, товары, предметы одежды и виды птиц, LOCORE стабильно превосходил существующие методы переранжирования, включая попарные подходы на локальных дескрипторах и списочные подходы на глобальных дескрипторах, при этом работая с сопоставимой или меньшей задержкой и используя значительно меньше памяти. Работа важна, потому что более качественное переранжирование напрямую повышает точность систем поиска изображений, а сам подход демонстрирует, что идеи из обработки естественного языка — в частности, моделирование длинного контекста и классификация на уровне токенов — могут быть эффективно перенесены на задачи визуального поиска.

аннотация

Мы представляем LOCORE (Long-Context Re-ranker) — модель, которая принимает на вход локальные дескрипторы, соответствующие изображению-запросу и списку изображений из галереи, и выдаёт оценки сходства между запросом и каждым изображением галереи. Эта модель используется для поиска изображений, где обычно сначала выполняется первичное ранжирование с помощью эффективной меры сходства, а затем короткий список наиболее высоко ранжированных изображений переранжируется на основе более детальной меры сходства. По сравнению с существующими методами, которые выполняют попарную оценку сходства с помощью локальных дескрипторов или списочное переранжирование с помощью глобальных дескрипторов, LOCORE является первым методом, выполняющим списочное переранжирование с помощью локальных дескрипторов. Чтобы добиться этого, мы используем эффективные последовательностные модели с длинным контекстом для эффективного захвата зависимостей между запросом и изображениями галереи на уровне локальных дескрипторов. Во время тестирования мы обрабатываем длинные короткие списки с помощью стратегии скользящего окна, разработанной для преодоления ограничений размера контекста последовательностных моделей. Наш подход достигает превосходной производительности по сравнению с другими переранжировщиками на устоявшихся бенчмарках поиска изображений для достопримечательностей (ROxf и RPar), товаров (SOP), предметов одежды (In-Shop) и видов птиц (CUB-200), при этом обладая сопоставимой задержкой с попарными переранжировщиками на локальных дескрипторах.

подробности

комментарий
CVPR 2025

цитирование

@inproceedings{xiao2025locore,
  title = {LoCoRe: Image Re-ranking with Long-Context Sequence Modeling},
  author = {Xiao, Zilin and Suma, Pavel and Sachdeva, Ayush and Wang, Hao-Jen and Kordopatis-Zilos, Giorgos and Tolias, Giorgos and Ordonez, Vicente},
  year = {2025},
  booktitle = {Conf. on Computer Vision and Pattern Recognition. CVPR 2025},
  url = {https://arxiv.org/abs/2503.21772},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

  • Что такое LOCORE и какую проблему он решает? LOCORE — это модель переранжирования изображений с длинным контекстом, которая совместно обрабатывает изображение-запрос и короткий список изображений галереи с использованием локальных дескрипторов, улучшая второй этап ранжирования, применяемый в системах поиска изображений.
  • Чем LOCORE отличается от попарных переранжировщиков? Попарные методы сравнивают запрос с каждым изображением галереи независимо, тогда как LOCORE моделирует весь короткий список вместе, что позволяет ему использовать взаимосвязи как между изображениями галереи, так и совпадения запрос-галерея.
  • Почему LOCORE использует последовательностную модель с длинным контекстом? Переранжирование до 100 изображений галереи с помощью локальных дескрипторов создаёт длинную последовательность токенов, а внимание в стиле Longformer позволяет модели захватывать полезные зависимости при управляемом объёме памяти и задержке.
  • Как LOCORE обрабатывает короткие списки длиннее своего контекстного окна? Он использует стратегию скользящего окна с перекрытием, которая повторно применяет списочный переранжировщик к частям короткого списка, позволяя методу улучшать ранжирование за пределами максимального размера списка, наблюдаемого за один прямой проход.
  • Какие бенчмарки поиска улучшает LOCORE? В статье сообщается о лидирующих результатах или результатах на современном уровне (state-of-the-art) в переранжировании на бенчмарках поиска достопримечательностей, товаров, одежды и видов птиц, включая ROxf/RPar, SOP, In-Shop и CUB-200.

Основные вклады

  • В статье представлен первый фреймворк списочного переранжирования изображений, работающий на уровне локальных дескрипторов, а не опирающийся на попарное локальное сопоставление или списочные глобальные дескрипторы.
  • LOCORE переформулирует переранжирование изображений как задачу классификации на уровне токенов с длинным контекстом, перенося идеи из извлечения спанов и разметки последовательностей в NLP в визуальный поиск.
  • Модель использует глобальное внимание к запросу, токены-разделители и обучение с перемешиванием галереи, чтобы избежать позиционных шорткатов и научиться осмысленным межизображенческим взаимодействиям дескрипторов.
  • На ROxf/RPar и их вариантах с 1M отвлекающих изображений LOCORE превосходит предыдущие переранжировщики на локальных дескрипторах, такие как геометрическая верификация, RRT, CVNet и AMES, при сопоставимых настройках дескрипторов.
  • Метод также улучшает бенчмарки поиска на основе Metric Learning, включая CUB-200, SOP и In-Shop, показывая, что списочное переранжирование на локальных дескрипторах полезно не только для поиска достопримечательностей.

Ограничения и предостережения

  • LOCORE является переранжировщиком второго этапа, а не заменой эффективного поиска первого этапа, что уместно для крупномасштабных поисковых конвейеров, где компактный глобальный дескриптор сначала сужает список кандидатов.
  • Метод зависит от высококачественных локальных дескрипторов из таких систем, как DELG или DINOv2, но это делает его дополняющим достижения в извлечении локальных признаков, а не привязанным к одному бэкбону.
  • Обработка длинного контекста имеет конечное контекстное окно, поэтому очень длинные короткие списки требуют инференса со скользящим окном; в статье показано, что эта стратегия работает хорошо и может расширить преимущества за пределы размера списка при обучении.
  • Обучение требует внимательности, чтобы избежать позиционных шорткатов от первоначального глобального ранжирования, но обучение с перемешиванием галереи является простым и эффективным решением, продемонстрированным в абляциях.
  • Оценка сосредоточена на устоявшихся бенчмарках поиска на уровне экземпляров, оставляя более широкие производственные сценарии поиска и доменно-специфичные коллекции изображений в качестве естественных следующих исследований по развёртыванию.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как значимый вклад в переранжирование при поиске изображений: LOCORE показывает, что списочное моделирование с длинным контекстом может сделать локальные дескрипторы более мощными, повышая точность на разнообразных бенчмарках, сохраняя при этом задержку и память на практичном уровне для поиска второго этапа.