MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

Zilin Xiao; Qi Ma; Mengting Gu; Chun-cheng Jason Chen; Xintao Chen; Vicente Ordonez; Vijai Mohan

← назад к публикациям

publication

MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan.

International Conference on Learning Representations. ICLR 2026.

статья github pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из Meta и Rice University разработали MetaEmbed — новый подход к мультимодальному поиску, который позволяет системам по запросу регулировать свою точность и скорость. Современные системы мультимодального поиска, которые ведут поиск по тексту и изображениям, сталкиваются с компромиссом между точностью и вычислительной эффективностью: они либо сжимают всё в единый вектор, теряющий детали, либо используют сотни векторов, которые становятся слишком медленными для практического применения. MetaEmbed вводит обучаемые «Meta Tokens», которые создают небольшой набор контекстуализированных эмбеддингов, организованных от грубой к детальной информации. Такой дизайн позволяет пользователям выбирать, сколько векторов использовать во время поиска, балансируя качество и требования к скорости. Тестирование на стандартных бенчмарках показывает, что система достигает современного уровня качества, при этом масштабируясь

аннотация

Универсальные мультимодальные модели эмбеддингов добились большого успеха в захвате семантической релевантности между запросами и кандидатами. Однако современные методы либо сжимают запросы и кандидатов в единый вектор, потенциально ограничивая выразительность для детальной информации, либо порождают слишком много векторов, что недопустимо для многовекторного поиска. В этой работе мы представляем MetaEmbed — новый фреймворк для мультимодального поиска, который переосмысляет то, как мультимодальные эмбеддинги конструируются и взаимодействуют при масштабировании. Во время обучения фиксированное число обучаемых Meta Tokens добавляется к входной последовательности. На этапе тестирования их контекстуализированные представления последнего слоя служат компактными, но выразительными многовекторными эмбеддингами. Благодаря предложенному обучению Matryoshka Multi-Vector Retrieval MetaEmbed учится организовывать информацию по уровню детализации в нескольких векторах. В результате мы обеспечиваем масштабирование на этапе тестирования в мультимодальном поиске, где пользователи могут балансировать качество поиска и требования к эффективности, выбирая число токенов, используемых для индексации и поисковых взаимодействий. Обширные оценки на Massive Multimodal Embedding Benchmark (MMEB) и Visual Document Retrieval Benchmark (ViDoRe) подтверждают, что MetaEmbed достигает современного уровня качества поиска, при этом устойчиво масштабируясь до моделей с 32B параметрами. Код доступен по адресу https://github.com/facebookresearch/MetaEmbed.

подробности

комментарий: ICLR 2026 Oral

цитирование

@inproceedings{xiao2026metaembed,
  title = {MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction},
  author = {Xiao, Zilin and Ma, Qi and Gu, Mengting and Chen, Chun-cheng Jason and Chen, Xintao and Ordonez, Vicente and Mohan, Vijai},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2509.18095},
}

автоматически сгенерированные вопросы, основные вклады и ограничения этой статьи

Вопросы, на которые помогает ответить эта статья

Что такое MetaEmbed и какую проблему он решает? MetaEmbed — это фреймворк мультимодального поиска, который использует компактные обучаемые Meta Tokens, чтобы обеспечить более выразительный поиск, чем одновекторные эмбеддинги, без больших затрат, связанных с сотнями векторов уровня патчей.
Как MetaEmbed обеспечивает масштабирование на этапе тестирования? Он обучает вложенные группы Meta Embeddings посредством Matryoshka Multi-Vector Retrieval, поэтому пользователи могут выбирать меньшие или большие бюджеты поиска на этапе индексации и оценки без переобучения.
Почему Meta Tokens полезны для мультимодального поиска? Их контекстуализированные состояния последнего слоя действуют как небольшой набор многовекторных эмбеддингов, сохраняющих детальные взаимодействия запрос-кандидат, при этом удерживая под контролем размер индекса и стоимость оценки.
Насколько хорошо MetaEmbed работает на MMEB? В статье сообщается, что MetaEmbed, инициализированный Qwen2.5-VL, достигает общего Precision@1 в 76.6 с моделью 7B и 78.7 с моделью 32B, превосходя перечисленные базовые модели.
Работает ли MetaEmbed для поиска по визуальным документам? Да, в статье проводится оценка на ViDoRe и показывается, что качество поиска улучшается по мере использования большего числа Meta Embeddings, при этом MMR сохраняет высокое качество при низких бюджетах поиска.

Основные вклады

В статье представлены Meta Tokens как компактные контекстуализированные многовекторные эмбеддинги для мультимодального поиска по текстовым, графическим и смешанным запросам и кандидатам.
Matryoshka Multi-Vector Retrieval обучает вложенные группы эмбеддингов от грубых к детальным, позволяя единой модели и схеме индекса поддерживать несколько рабочих точек по качеству и задержке.
MetaEmbed достигает современного уровня результатов на MMEB и высоких результатов на ViDoRe, при этом масштабируясь до бэкбонов моделей зрения и языка на 32B параметров.
Абляции показывают, что преимущества многовекторного поиска растут с масштабом модели и что MMR важен для сохранения качества поиска при низком бюджете.
Анализ эффективности показывает, что задержка оценки остаётся небольшой при умеренных бюджетах и что памятью индекса можно управлять, выбирая сбалансированные настройки поиска.

Ограничения и предостережения

Более высокие бюджеты поиска увеличивают память индекса, но вложенный дизайн делает это управляемым пользователем компромиссом, а не фиксированной стоимостью развёртывания.
Самый большой бюджет может существенно увеличить FLOPs оценки, однако измеренная задержка остаётся практичной для многих сценариев, и в статье показана полезная точность при гораздо меньших бюджетах.
MetaEmbed всё ещё требует дообучения сильных бэкбонов VLM, поэтому будущая работа могла бы исследовать более лёгкие рецепты обучения; настройка LoRA и эксперименты с несколькими архитектурами уже делают подход широко доступным.
Оценка сосредоточена на стандартных бенчмарках мультимодального поиска и поиска по визуальным документам, оставляя очень крупные продакшн-индексы и специализированные корпоративные домены естественными исследованиями развёртывания.
Метод нацелен на поиск, а не напрямую на генерацию или ответы на вопросы, но более качественный гибкий поиск — ценный строительный блок для мультимодальных систем с генерацией, дополненной поиском.

Как интерпретировать этот результат

Эту статью лучше всего воспринимать как сильный вклад в масштабируемый мультимодальный поиск: MetaEmbed сохраняет детальное позднее взаимодействие, добавляет практичный регулятор бюджета на этапе тестирования и показывает, что более крупные VLM могут становиться более эффективными поисковыми моделями, если им предоставить компактные многовекторные интерфейсы.