Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval
publication

Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval

Shanmin Pang, Jin Ma, Jianru Xue, Jihua Zhu, Vicente Ordonez.
IEEE Transactions on Multimedia 2019 (Journal).
Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della Xi'an Jiaotong University e della University of Virginia hanno sviluppato un nuovo sistema di ricerca di immagini che prende in prestito un concetto dalla fisica — la diffusione del calore — per rendere i motori di ricerca visiva più accurati ed efficienti. Il problema centrale affrontato è che i sistemi standard di recupero immagini possono essere fuorviati da schemi visivi ripetitivi, come le file di finestre identiche sulla facciata di un edificio, che sommergono il sistema di informazioni ridondanti e rendono più difficile individuare ciò che è realmente distintivo in un'immagine. Per risolvere questo problema, il gruppo ha trattato ciascuna caratteristica locale estratta da una rete neurale convoluzionale come una sorgente di calore, utilizzando poi la matematica della diffusione del calore per misurare quanto quella caratteristica sia "bursty" o ripetitiva: le caratteristiche che diffondono ampiamente il calore attraverso una rete di vicini simili vengono segnalate come ridondanti, mentre le caratteristiche isolate che generano poco trasferimento di calore vengono considerate più distintive. Il sistema assegna quindi pesi alle caratteristiche di conseguenza, prima di combinarle in un unico descrittore compatto dell'immagine. Lo stesso principio della diffusione del calore è stato applicato anche a livello di immagine, dove un'immagine di query agisce come sorgente di calore e il calore che essa diffonde verso le immagini candidate del database viene utilizzato per riordinare i risultati di ricerca. Testato su benchmark standard tra cui i dataset Oxford Buildings e Paris, l'approccio ha superato i metodi concorrenti, in alcuni casi migliorando l'accuratezza del recupero di oltre cinque punti percentuali su dataset di larga scala, pur mantenendo una velocità di esecuzione sufficiente per un uso pratico — il tutto senza richiedere alcun dato di addestramento etichettato aggiuntivo.

abstract

Il recupero di immagini basato su caratteristiche convoluzionali profonde ha dimostrato prestazioni allo stato dell'arte nei benchmark più diffusi. In questo articolo presentiamo una soluzione unificata per affrontare l'aggregazione delle caratteristiche convoluzionali profonde e il re-ranking delle immagini simulando le dinamiche della diffusione del calore. Un problema caratteristico nel recupero di immagini è che le caratteristiche ripetitive o \emph{bursty} tendono a dominare le rappresentazioni finali delle immagini, rendendole meno distinguibili. Mostriamo che, considerando ciascuna caratteristica profonda come una sorgente di calore, il nostro metodo di aggregazione non supervisionato è in grado di evitare la sovrarappresentazione delle caratteristiche \emph{bursty}. Forniamo inoltre una soluzione pratica per il metodo di aggregazione proposto e dimostriamo ulteriormente l'efficienza del nostro metodo nella valutazione sperimentale. Ispirandoci al suddetto metodo di aggregazione delle caratteristiche profonde, proponiamo anche un metodo per riordinare un certo numero di immagini ai primi posti del ranking per una data immagine di query, considerando la query come sorgente di calore. Infine, valutiamo in modo approfondito l'approccio proposto con reti profonde pre-addestrate e perfezionate su benchmark pubblici comuni e mostriamo prestazioni superiori rispetto al lavoro precedente.

dettagli

commento
The paper has been accepted to IEEE Transactions on Multimedia

citazione

@article{pang2019deep,
  title = {Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval},
  author = {Pang, Shanmin and Ma, Jin and Xue, Jianru and Zhu, Jihua and Ordonez, Vicente},
  year = {2019},
  journal = {IEEE Transactions on Multimedia 2019 (Journal).},
  url = {https://arxiv.org/abs/1805.08587},
}