Feedback-prop: Convolutional Neural Network Inference under Partial Evidence
Zusammenfassung der Pressemitteilung
Forscher der University of Virginia und von CyberAgent haben eine Technik entwickelt, die es bestehenden neuronalen Netzen zur Bilderkennung ermöglicht, bessere Vorhersagen zu treffen, wenn einige Informationen über ein Foto bereits im Voraus bekannt sind. Die Methode namens Feedback-Prop schließt eine Lücke zwischen der Art, wie Computer-Vision-Systeme typischerweise getestet werden – nur mit visueller Eingabe –, und der Art, wie sie in der Praxis oft eingesetzt werden, wo umgebender Text, GPS-Daten, Nutzer-Tags oder andere kontextuelle Hinweise häufig verfügbar sind. Anstatt ein Netzwerk neu zu trainieren, um diese zusätzlichen Informationen einzubeziehen, stellten die Forscher fest, dass sie bekannte Bezeichnungen stattdessen während des Inferenzschritts selbst durch ein trainiertes Netzwerk zurückführen konnten, wobei sie die internen Aktivierungen des Netzwerks anpassten, bis sich die Vorhersagen für die verbleibenden unbekannten Bezeichnungen verbesserten. Sie testeten zwei Varianten des Ansatzes – eine, die Schichten nacheinander aktualisiert, und eine, die an mehreren Schichten gleichzeitig kleine korrigierende Variablen einschleust – an mehreren Aufgaben, darunter das Identifizieren von Objekten in Bildern, wenn einige Bezeichnungen bereits bekannt sind, das Vorhersagen feingranularer Szenenkategorien, wenn grobe Kategorien gegeben sind, und das Generieren von Bildunterschriften, wenn Objektannotationen verfügbar sind. Über alle Aufgaben und mehrere standardmäßige Netzwerkarchitekturen hinweg, einschließlich VGG-16 und ResNet, verbesserte das Hinzufügen partieller Evidenz die Genauigkeit durchgängig, mit relativen Zugewinnen, die je nach Aufgabe von etwa 10 bis 13 Prozent reichten. Bemerkenswerterweise erfordert die Technik keine Änderungen am ursprünglichen Modelltraining und funktioniert mit einer beliebigen Mischung aus bekannten und unbekannten Bezeichnungen, was sie für reale Einsatzszenarien, in denen Bilder selten ganz ohne begleitenden Kontext eintreffen, breit praktikabel macht.
Zusammenfassung
Wir schlagen ein Inferenzverfahren für tiefe konvolutionale neuronale Netze (CNNs) vor, wenn partielle Evidenz verfügbar ist. Unsere Methode besteht aus einem allgemeinen feedbackbasierten Propagationsansatz (Feedback-Prop), der die Vorhersagegenauigkeit für eine beliebige Menge unbekannter Zielbezeichnungen steigert, wenn die Werte für eine sich nicht überschneidende, beliebige Menge von Zielbezeichnungen bekannt sind. Wir zeigen, dass bestehende Modelle, die in einer Multi-Label- oder Multi-Task-Umgebung trainiert wurden, ohne erneutes Training oder Feinabstimmung ohne Weiteres von Feedback-Prop profitieren können. Unser Feedback-Prop-Inferenzverfahren ist allgemein, einfach, zuverlässig und funktioniert bei verschiedenen anspruchsvollen Aufgaben der visuellen Erkennung. Wir präsentieren zwei Varianten von Feedback-Prop, die auf schichtweisen und residualen iterativen Aktualisierungen beruhen. Wir experimentieren mit mehreren Multi-Task-Modellen und zeigen, dass Feedback-Prop in allen wirksam ist. Unsere Ergebnisse enthüllen eine bisher nicht berichtete, aber interessante dynamische Eigenschaft tiefer CNNs. Wir präsentieren außerdem einen zugehörigen technischen Ansatz, der diese Eigenschaft für die Inferenz unter partieller Evidenz bei allgemeinen Aufgaben der visuellen Erkennung nutzt.
Details
Zitation
@inproceedings{wang2018feedback,
title = {Feedback-prop: Convolutional Neural Network Inference under Partial Evidence},
author = {Wang, Tianlu and Yamaguchi, Kota and Ordonez, Vicente},
year = {2018},
booktitle = {Conference on Computer Vision and Pattern Recognition. CVPR 2018},
url = {https://arxiv.org/abs/1710.08049},
}