Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries
publication

Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries

Fuwen Tan, Paola Cascante-Bonilla, Xiaoxiao Guo, Hui Wu, Song Feng, Vicente Ordonez.
Conf. on Neural Information Processing Systems. NeurIPS 2019. Vancouver, Canada. December 2019.
Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'université de Virginie et d'IBM Research ont mis au point un système appelé Drill-down qui permet aux utilisateurs de trouver des images spécifiques en saisissant une série de descriptions en langage naturel, chacune affinant davantage la recherche plutôt que de tenter de tout capturer en une seule requête. Le problème qu'ils s'attaquaient est familier : les outils de recherche d'images existants peinent lorsqu'un utilisateur souhaite localiser une photo très particulière d'une scène complexe contenant de multiples objets, car condenser la description d'une scène entière en une seule phrase est à la fois difficile et imprécis. Au lieu d'imposer cette approche en un seul coup, Drill-down permet aux utilisateurs de commencer par une formulation large — par exemple « un groupe de personnes posant dans un parc » — puis d'ajouter progressivement des détails plus précis au fil de plusieurs tours, comme « il y a une mariée parmi elles », le système mettant à jour ses résultats à chaque fois. La contribution technique clé est un ensemble compact de vecteurs d'état qui stockent et organisent l'historique des requêtes d'un utilisateur, chaque vecteur apprenant à suivre une partie distincte de la scène plutôt que de tout réduire à une seule représentation, comme le faisaient les systèmes de recherche dialogués antérieurs. Fait crucial, l'équipe a découvert qu'elle pouvait entraîner le modèle sans collecter de coûteuses sessions de recherche annotées par des humains, en utilisant à la place des légendes de régions d'images existantes issues du jeu de données Visual Genome comme substitut peu coûteux aux requêtes réelles d'utilisateurs. Des tests menés à la fois sur des utilisateurs simulés et réels ont montré que Drill-down surpassait les méthodes concurrentes tout en utilisant en réalité moins de mémoire et moins de paramètres, et plus de 80 pour cent des testeurs humains ont réussi à localiser leur image cible en cinq tours. Ces travaux suggèrent que décomposer la recherche d'images en un échange conversationnel constitue une voie pratique pour retrouver des images très spécifiques dans de vastes collections variées.

résumé

Cet article explore la tâche de recherche interactive d'images à l'aide de requêtes en langage naturel, où un utilisateur fournit progressivement des requêtes d'entrée afin d'affiner un ensemble de résultats de recherche. De plus, notre travail explore ce problème dans le contexte de scènes d'images complexes contenant de multiples objets. Nous proposons Drill-down, un cadre efficace pour encoder plusieurs requêtes au moyen d'une représentation d'état compacte et performante qui étend significativement les méthodes actuelles de recherche d'images en un seul tour. Nous montrons que l'utilisation de plusieurs tours de requêtes en langage naturel en entrée peut être étonnamment efficace pour trouver des images arbitrairement spécifiques de scènes complexes. Par ailleurs, nous constatons que les jeux de données d'images existants assortis de légendes textuelles peuvent fournir une forme étonnamment efficace de supervision faible pour cette tâche. Nous comparons notre méthode aux réseaux d'encodage séquentiel et de plongement existants, démontrant des performances supérieures sur deux benchmarks proposés : la recherche automatique d'images dans un scénario simulé qui utilise des légendes de régions comme requêtes, et la recherche interactive d'images à l'aide de requêtes réelles formulées par des évaluateurs humains.

détails

commentaire
14 pages, 9 figures, NeurIPS 2019

citation

@inproceedings{tan2019drill,
  title = {Drill-down: Interactive Retrieval of Complex Scenes using Natural Language Queries},
  author = {Tan, Fuwen and Cascante-Bonilla, Paola and Guo, Xiaoxiao and Wu, Hui and Feng, Song and Ordonez, Vicente},
  year = {2019},
  booktitle = {Conf. on Neural Information Processing Systems. NeurIPS 2019},
  url = {https://arxiv.org/abs/1911.03826},
}