MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

Zilin Xiao; Qi Ma; Mengting Gu; Chun-cheng Jason Chen; Xintao Chen; Vicente Ordonez; Vijai Mohan

← voltar às publicações

publication

MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan.

International Conference on Learning Representations. ICLR 2026.

artigo github pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da Meta e da Rice University desenvolveram o MetaEmbed, uma nova abordagem para busca multimodal que permite aos sistemas ajustar sua precisão e velocidade sob demanda. Os sistemas atuais de recuperação multimodal, que buscam em textos e imagens, enfrentam um dilema entre precisão e eficiência computacional: ou comprimem tudo em um único vetor que perde detalhes, ou usam centenas de vetores que se tornam lentos demais para uso prático. O MetaEmbed introduz "Meta Tokens" aprendíveis que criam um pequeno conjunto de embeddings contextualizados organizados da informação grosseira à de granularidade fina. Esse design permite que os usuários selecionem quantos vetores usar durante a busca, equilibrando qualidade e requisitos de velocidade. Testes em benchmarks padrão mostram que o sistema atinge desempenho de ponta enquanto escala

resumo

Modelos universais de embedding multimodal alcançaram grande sucesso em capturar a relevância semântica entre consultas e candidatos. No entanto, os métodos atuais ou condensam consultas e candidatos em um único vetor, potencialmente limitando a expressividade para informações de granularidade fina, ou produzem vetores em excesso que se tornam proibitivos para a recuperação multivetorial. Neste trabalho, apresentamos o MetaEmbed, um novo framework para recuperação multimodal que repensa como os embeddings multimodais são construídos e interagem em escala. Durante o treinamento, um número fixo de Meta Tokens aprendíveis é acrescentado à sequência de entrada. No momento do teste, suas representações contextualizadas da última camada servem como embeddings multivetoriais compactos, porém expressivos. Por meio do treinamento Matryoshka Multi-Vector Retrieval proposto, o MetaEmbed aprende a organizar a informação por granularidade ao longo de múltiplos vetores. Como resultado, viabilizamos o escalonamento em tempo de teste na recuperação multimodal, em que os usuários podem equilibrar a qualidade da recuperação com as demandas de eficiência ao selecionar o número de tokens usados nas interações de indexação e recuperação. Avaliações extensas no Massive Multimodal Embedding Benchmark (MMEB) e no Visual Document Retrieval Benchmark (ViDoRe) confirmam que o MetaEmbed atinge desempenho de recuperação de ponta, ao mesmo tempo em que escala de forma robusta para modelos com 32B de parâmetros. O código está disponível em https://github.com/facebookresearch/MetaEmbed.

detalhes

comentário: ICLR 2026 Oral

citação

@inproceedings{xiao2026metaembed,
  title = {MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction},
  author = {Xiao, Zilin and Ma, Qi and Gu, Mengting and Chen, Chun-cheng Jason and Chen, Xintao and Ordonez, Vicente and Mohan, Vijai},
  year = {2026},
  booktitle = {International Conference on Learning Representations. ICLR 2026},
  url = {https://arxiv.org/abs/2509.18095},
}

perguntas, principais contribuições e limitações deste artigo geradas automaticamente

Perguntas que este artigo ajuda a responder

O que é o MetaEmbed e qual problema ele aborda? O MetaEmbed é um framework de recuperação multimodal que usa Meta Tokens aprendíveis e compactos para fornecer uma recuperação mais expressiva do que os embeddings de vetor único, sem o alto custo de centenas de vetores em nível de patch.
Como o MetaEmbed viabiliza o escalonamento em tempo de teste? Ele treina grupos aninhados de Meta Embeddings por meio do Matryoshka Multi-Vector Retrieval, de modo que os usuários podem escolher orçamentos de recuperação menores ou maiores no momento da indexação e da pontuação, sem retreinamento.
Por que os Meta Tokens são úteis para a recuperação multimodal? Seus estados contextualizados da camada final atuam como um pequeno conjunto de embeddings multivetoriais que preservam interações consulta-candidato de granularidade fina, mantendo controláveis o tamanho do índice e o custo de pontuação.
Quão bem o MetaEmbed se sai no MMEB? O artigo relata que o MetaEmbed inicializado com Qwen2.5-VL atinge 76,6 de Precision@1 geral com um modelo de 7B e 78,7 com um modelo de 32B, superando as baselines listadas.
O MetaEmbed funciona para recuperação de documentos visuais? Sim, o artigo avalia no ViDoRe e mostra que a qualidade da recuperação melhora à medida que mais Meta Embeddings são usados, enquanto o MMR preserva um desempenho forte com orçamentos de recuperação baixos.

Principais contribuições

O artigo introduz os Meta Tokens como embeddings multivetoriais contextualizados e compactos para recuperação multimodal em consultas e candidatos de texto, imagem e modalidade mista.
O Matryoshka Multi-Vector Retrieval treina grupos de embeddings aninhados do grosseiro ao fino, permitindo que um único modelo e design de índice sustentem múltiplos pontos de operação de qualidade-latência.
O MetaEmbed alcança resultados de ponta no MMEB e resultados sólidos no ViDoRe enquanto escala para backbones de modelos de visão e linguagem de 32B.
As ablações mostram que os benefícios da recuperação multivetorial crescem com a escala do modelo e que o MMR é importante para preservar a qualidade da recuperação em orçamentos baixos.
A análise de eficiência mostra que a latência de pontuação permanece pequena para orçamentos moderados e que a memória do índice pode ser gerenciada com a escolha de configurações de recuperação equilibradas.

Limitações e ressalvas

Orçamentos de recuperação maiores aumentam a memória do índice, mas o design aninhado torna isso um trade-off controlável pelo usuário, em vez de um custo fixo de implantação.
O maior orçamento pode aumentar substancialmente os FLOPs de pontuação, mas a latência medida permanece prática para muitos cenários, e o artigo mostra uma precisão útil com orçamentos bem menores.
O MetaEmbed ainda exige o ajuste fino de backbones de VLM robustos, então trabalhos futuros poderiam explorar receitas de treinamento mais leves; a configuração com LoRA e os experimentos multiarquitetura já tornam a abordagem amplamente acessível.
A avaliação foca em benchmarks padrão de recuperação multimodal e de documentos visuais, deixando índices de produção muito grandes e domínios corporativos especializados como estudos naturais de implantação.
O método visa a recuperação, e não diretamente a geração ou a resposta a perguntas, mas uma recuperação flexível e aprimorada é um componente valioso para sistemas multimodais com recuperação aumentada.

Como interpretar este resultado

Este artigo é mais bem compreendido como uma forte contribuição para a recuperação multimodal escalável: o MetaEmbed preserva a interação tardia de granularidade fina, adiciona um controle prático de orçamento em tempo de teste e mostra que VLMs maiores podem se tornar modelos de recuperação mais eficazes quando dotados de interfaces multivetoriais compactas.