On the Transferability of Visual Features in Generalized Zero-Shot Learning
publication

On the Transferability of Visual Features in Generalized Zero-Shot Learning

Paola Cascante-Bonilla, Leonid Karlinsky, James Seale Smith, Yanjun Qi, Vicente Ordonez.
arXiv:2211.12494 November 2022.
Nachrichtenredaktion des Labors

Zusammenfassung der Pressemitteilung

Dieser Abschnitt ist bewusst im Stil einer Pressemitteilung in journalistischem Ton für ein allgemeines Publikum verfasst.

Forschende der Rice University, des MIT-IBM Watson AI Lab, von Georgia Tech und der University of Virginia haben sich systematisch einer Frage gewidmet, die das Feld des Generalized Zero-Shot Learning (GZSL) weitgehend ignoriert hatte: Spielt es eine Rolle, welchen visuellen Merkmalsextraktor man verwendet? GZSL ist das Problem, einen Bildklassifikator zu trainieren, der sowohl vertraute Kategorien als auch völlig neue, nie zuvor gesehene erkennen kann, wobei er sich auf Attributbeschreibungen als Brücke stützt. Die meisten früheren Arbeiten in diesem Feld hatten einfach Merkmale aus einem ResNet101-Netzwerk verwendet, das auf ImageNet trainiert wurde, und waren damit zur Tagesordnung übergegangen. Das Team führte stattdessen ein großmaßstäbliches Experiment durch, bei dem es eine breite Palette moderner Merkmalsextraktoren einsetzte – darunter faltende Netzwerke, Vision Transformers und MLP-Mixer, die mit überwachten, selbstüberwachten und kontrastiven Zielen trainiert wurden – und das über drei standardmäßige Benchmark-Datensätze hinweg. Sie stellten fest, dass die Wahl des Merkmalsextraktors durchaus erheblich ins Gewicht fällt. Modelle, die mit DINO trainiert wurden, einer selbstüberwachten Methode, die kontrastives Lernen mit Selbstdestillation kombiniert, lieferten Merkmalsrepräsentationen, die die Leistung auf feingranularen Datensätzen um bis zu 15 Prozentpunkte gegenüber standardmäßigen überwachten Modellen steigerten. Kontraintuitiv verbesserte das Training auf größeren Datensätzen wie ImageNet-21K die Ergebnisse nicht zuverlässig. Sie testeten zudem CLIP, das große multimodale Modell, das auf 400 Millionen Bild-Text-Paaren trainiert wurde, und stellten fest, dass CLIP zwar von Haus aus stark ist, das Paaren seiner visuellen Merkmale mit generativ-basierten GZSL-Methoden die Leistung bei feingranularen Aufgaben jedoch noch weiter steigert, was nahelegt, dass die architektonischen Fortschritte von GZSL noch nicht obsolet sind. Die Arbeit ist relevant, weil sie Praktikern konkrete Orientierung bei der Merkmalsauswahl bietet und die langjährige Abhängigkeit des Feldes von einem einzigen Backbone infrage stellt.

Zusammenfassung

Generalized Zero-Shot Learning (GZSL) zielt darauf ab, einen Klassifikator zu trainieren, der auf ungesehene Klassen generalisieren kann, wobei eine Menge von Attributen als Zusatzinformation und die aus einem vortrainierten faltenden neuronalen Netz extrahierten visuellen Merkmale verwendet werden. Während jüngere GZSL-Methoden verschiedene Techniken zur Nutzung der Leistungsfähigkeit dieser Merkmale erkundet haben, gab es ein umfangreiches Wachstum an Techniken des Repräsentationslernens, die weiterhin wenig erforscht bleiben. In dieser Arbeit untersuchen wir den Nutzen verschiedener GZSL-Methoden bei Verwendung unterschiedlicher Merkmalsextraktoren und prüfen, wie die Vortrainingsziele, Datensätze und das Architekturdesign dieser Modelle ihre Fähigkeit zur Merkmalsrepräsentation beeinflussen. Unsere Ergebnisse zeigen, dass 1) Methoden, die generative Komponenten für GZSL verwenden, bei der Nutzung jüngerer Merkmalsextraktoren mehr Vorteile bieten; 2) Merkmalsextraktoren, die mit selbstüberwachten Lernzielen und Wissensdestillation vortrainiert wurden, bessere Merkmalsrepräsentationen liefern und die Leistung bei Verwendung mit jüngeren GZSL-Techniken um bis zu 15 % steigern; 3) bestimmte Merkmalsextraktoren, die mit größeren Datensätzen vortrainiert wurden, die Leistung von GZSL-Methoden nicht notwendigerweise steigern. Darüber hinaus untersuchen wir, wie sich GZSL-Methoden gegenüber CLIP schlagen, einem jüngeren multimodalen vortrainierten Modell mit starker Zero-Shot-Leistung. Wir stellten fest, dass GZSL-Aufgaben weiterhin von generativ-basierten GZSL-Methoden zusammen mit dem internetmaßstäblichen Vortraining von CLIP profitieren, um auf feingranularen Datensätzen Spitzenleistungen zu erzielen. Wir veröffentlichen ein modulares Rahmenwerk zur Analyse von Fragestellungen des Repräsentationslernens in GZSL hier: https://github.com/uvavision/TV-GZSL

Zitation

@article{cascantebonilla2022transferability,
  title = {On the Transferability of Visual Features in Generalized Zero-Shot Learning},
  author = {Cascante-Bonilla, Paola and Karlinsky, Leonid and Smith, James Seale and Qi, Yanjun and Ordonez, Vicente},
  year = {2022},
  journal = {arXiv preprint arXiv:2211.12494},
  url = {https://arxiv.org/abs/2211.12494},
}