LoCoRe: Image Re-ranking with Long-Context Sequence Modeling
publication

LoCoRe: Image Re-ranking with Long-Context Sequence Modeling

Zilin Xiao, Pavel Suma, Ayush Sachdeva, Hao-Jen Wang, Giorgos Kordopatis-Zilos, Giorgos Tolias, Vicente Ordonez.
Conf. on Computer Vision and Pattern Recognition. CVPR 2025. Nashville, TN.
实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气,面向普通读者撰写。

来自莱斯大学和布拉格捷克理工大学的研究人员开发了一个名为 LOCORE 的新型图像检索系统,它重新思考了搜索引擎在初次广泛搜索之后如何收窄并重排序候选图像。传统的重排序系统将查询图像逐一与每张候选图像单独比较,一次一对,这意味着它们错过了候选图像彼此之间有用的关系——例如,两张图库图像可能共享某些特征,这些特征结合起来能提供更强的匹配证据。LOCORE 则同时处理查询图像与多达 100 张候选图像的整个短列表,使用一个最初为长篇文本文档开发、名为 Longformer 的长上下文 transformer 模型,在细粒度局部视觉描述符层面捕捉这些跨图像依赖关系。为应对短列表超出模型一次性所能容纳内存的情况,团队设计了一种滑动窗口策略,以重叠分块的方式遍历候选列表。在涵盖地标、商品、时尚单品和鸟类物种的五个基准数据集上的测试中,LOCORE 始终优于现有的重排序方法,包括使用局部描述符的成对方法和使用全局描述符的列表式方法,同时以相当或更低的延迟运行,并使用显著更少的内存。这项工作之所以重要,是因为更好的重排序能直接提升图像搜索系统的准确性,并且该方法证明了来自自然语言处理的思想——尤其是长上下文建模和词元级分类——能够有效迁移到视觉检索任务中。

摘要

我们提出了 LOCORE(Long-Context Re-ranker,长上下文重排序器),一个以对应图像查询的局部描述符及一组图库图像作为输入,并输出查询与每张图库图像之间相似度分数的模型。该模型用于图像检索,在图像检索中通常先用一种高效的相似度度量进行初次排序,然后基于更细粒度的相似度度量对排名靠前的候选短列表进行重排序。与现有方法相比——它们要么用局部描述符进行成对相似度估计,要么用全局描述符进行列表式重排序——LOCORE 是首个用局部描述符进行列表式重排序的方法。为此,我们利用高效的长上下文序列模型,在局部描述符层面有效捕捉查询图像与图库图像之间的依赖关系。在测试时,我们采用一种为克服序列模型上下文规模限制而量身定制的滑动窗口策略来处理长短列表。我们的方法在已确立的图像检索基准上——包括地标(ROxf 和 RPar)、商品(SOP)、时尚单品(In-Shop)和鸟类物种(CUB-200)——相比其他重排序器取得了更优的性能,同时延迟与成对局部描述符重排序器相当。

详情

备注
CVPR 2025

引用

@inproceedings{xiao2025locore,
  title = {LoCoRe: Image Re-ranking with Long-Context Sequence Modeling},
  author = {Xiao, Zilin and Suma, Pavel and Sachdeva, Ayush and Wang, Hao-Jen and Kordopatis-Zilos, Giorgos and Tolias, Giorgos and Ordonez, Vicente},
  year = {2025},
  booktitle = {Conf. on Computer Vision and Pattern Recognition. CVPR 2025},
  url = {https://arxiv.org/abs/2503.21772},
}

自动生成的本文相关问题、主要贡献与局限

本文有助于回答的问题

  • 什么是 LOCORE,它解决了什么问题?LOCORE 是一个长上下文图像重排序模型,它使用局部描述符联合处理查询图像和图库图像短列表,从而改进图像检索系统中所使用的第二阶段排序。
  • LOCORE 与成对重排序器有何不同?成对方法将查询与每张图库图像独立比较,而 LOCORE 将整个短列表一起建模,因此既能利用查询-图库的匹配,也能利用图库图像之间的关系。
  • LOCORE 为什么使用长上下文序列模型?用局部描述符对多达 100 张图库图像进行重排序会产生很长的词元序列,而 Longformer 风格的注意力让模型能够以可控的内存和延迟捕捉有用的依赖关系。
  • LOCORE 如何处理长于其上下文窗口的短列表?它采用一种重叠的滑动窗口策略,在短列表的各个部分上复用列表式重排序器,使该方法能够改进超出单次前向传播所见最大列表规模的排序。
  • LOCORE 在哪些检索基准上有所改进?论文报告在地标、商品、时尚和鸟类物种检索基准上取得领先或最先进的重排序结果,包括 ROxf/RPar、SOP、In-Shop 和 CUB-200。

主要贡献

  • 论文引入了首个在局部描述符层面运作的列表式图像重排序框架,而非依赖成对局部匹配或列表式全局描述符。
  • LOCORE 将图像重排序重新表述为一个长上下文的词元级分类问题,将 NLP 中的片段抽取和序列标注思想迁移到视觉检索中。
  • 该模型使用查询全局注意力、分隔符词元以及图库打乱训练,以避免位置捷径并学习有意义的跨图像描述符交互。
  • 在 ROxf/RPar 及其 1M 干扰项变体上,LOCORE 在可比的描述符设置下优于先前的局部描述符重排序器,如几何验证、RRT、CVNet 和 AMES。
  • 该方法还改进了包括 CUB-200、SOP 和 In-Shop 在内的度量学习检索基准,表明列表式局部描述符重排序在地标检索之外同样有用。

局限与注意事项

  • LOCORE 是第二阶段的重排序器,而非高效第一阶段检索的替代品,这对于大规模搜索流程是合适的——在这类流程中,先由一个紧凑的全局描述符收窄候选列表。
  • 该方法依赖于来自 DELG 或 DINOv2 等系统的高质量局部描述符,但这使它与局部特征提取的进展相互补充,而非被绑定于单一骨干网络。
  • 长上下文处理具有有限的上下文窗口,因此非常长的短列表需要滑动窗口推理;论文表明该策略效果良好,并能将收益扩展到训练列表规模之外。
  • 训练需要谨慎以避免来自初始全局排序的位置捷径,但图库打乱训练是一种简单有效的解决办法,已在消融实验中得到验证。
  • 评估聚焦于已确立的实例级检索基准,将更广泛的生产搜索场景和领域特定的图像集合留作自然的下一步部署研究。

如何理解这一结果

这篇论文最好被理解为对图像检索重排序的一项有力贡献:LOCORE 表明,长上下文的列表式建模能让局部描述符更加强大,在多样化基准上提升准确率,同时将延迟和内存保持在适合第二阶段检索的实用水平。