Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval
publication

Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval

Shanmin Pang, Jin Ma, Jianru Xue, Jihua Zhu, Vicente Ordonez.
IEEE Transactions on Multimedia 2019 (Journal).
Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad Jiao Tong de Xi'an y la Universidad de Virginia han desarrollado un nuevo sistema de búsqueda de imágenes que toma prestado un concepto de la física —la difusión del calor— para hacer que los motores de búsqueda visual sean más precisos y eficientes. El problema central que abordaron es que los sistemas de recuperación de imágenes estándar pueden desorientarse por patrones visuales repetitivos, como las hileras de ventanas idénticas en la fachada de un edificio, que inundan el sistema con información redundante y dificultan identificar qué es realmente distintivo en una imagen. Para solucionarlo, el equipo trató cada característica local extraída de una red neuronal convolucional como una fuente de calor, y luego usó las matemáticas de la difusión del calor para medir qué tan "en ráfaga" o repetitiva es esa característica: las características que difunden calor ampliamente a través de una red de vecinos similares se marcan como redundantes, mientras que las características aisladas que generan poca transferencia de calor se tratan como más distintivas. El sistema asigna entonces pesos a las características en consecuencia antes de combinarlas en un único descriptor de imagen compacto. El mismo principio de difusión del calor también se aplicó a nivel de imagen, donde una imagen de consulta actúa como fuente de calor y la calidez que difunde a las imágenes candidatas de la base de datos se usa para reordenar los resultados de búsqueda. En pruebas sobre benchmarks estándar, incluidos los conjuntos de datos Oxford Buildings y Paris, el enfoque superó a los métodos competidores, mejorando en algunos casos la precisión de recuperación en más de cinco puntos porcentuales en conjuntos de datos a gran escala, sin dejar de ejecutarse lo suficientemente rápido para un uso práctico, todo ello sin requerir ningún dato de entrenamiento etiquetado adicional.

resumen

La recuperación de imágenes basada en características convolucionales profundas ha demostrado un rendimiento de vanguardia en benchmarks populares. En este artículo, presentamos una solución unificada para abordar la agregación de características convolucionales profundas y el reordenamiento de imágenes simulando la dinámica de la difusión del calor. Un problema distintivo en la recuperación de imágenes es que las características repetitivas o \emph{en ráfaga} tienden a dominar las representaciones finales de las imágenes, dando como resultado representaciones menos distinguibles. Mostramos que, al considerar cada característica profunda como una fuente de calor, nuestro método de agregación no supervisado es capaz de evitar la sobrerrepresentación de las características \emph{en ráfaga}. Adicionalmente, proporcionamos una solución práctica para el método de agregación propuesto y mostramos además la eficiencia de nuestro método en la evaluación experimental. Inspirados por el mencionado método de agregación de características profundas, también proponemos un método para reordenar un número de imágenes mejor clasificadas para una imagen de consulta dada, considerando la consulta como la fuente de calor. Por último, evaluamos exhaustivamente el enfoque propuesto con redes profundas preentrenadas y ajustadas finamente en benchmarks públicos comunes y mostramos un rendimiento superior en comparación con trabajos anteriores.

detalles

comentario
The paper has been accepted to IEEE Transactions on Multimedia

cita

@article{pang2019deep,
  title = {Deep Feature Aggregation and Image Re-ranking with Heat Diffusion for Image Retrieval},
  author = {Pang, Shanmin and Ma, Jin and Xue, Jianru and Zhu, Jihua and Ordonez, Vicente},
  year = {2019},
  journal = {IEEE Transactions on Multimedia 2019 (Journal).},
  url = {https://arxiv.org/abs/1805.08587},
}