CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations

Aman Shrivastava; Ramprasaath R. Selvaraju; Nikhil Naik; Vicente Ordonez

← zurück zu den Publikationen

publication

CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations

Aman Shrivastava, Ramprasaath R. Selvaraju, Nikhil Naik, Vicente Ordonez.

Int. Conf. on Artificial Intelligence and Statistics AISTATS 2023. Valencia, Spain / Hybrid.

Artikel pdf BibTeX-Quelltext

Zusammenfassung

Wir schlagen CLIP-Lite vor, eine informationseffiziente Methode zum Erlernen visueller Repräsentationen durch Merkmalsausrichtung mit textuellen Annotationen. Im Vergleich zum zuvor vorgeschlagenen CLIP-Modell benötigt CLIP-Lite während der Optimierung seines kontrastiven Lernziels nur ein einziges negatives Bild-Text-Stichprobenpaar für jedes positive Bild-Text-Paar. Wir erreichen dies, indem wir eine informationseffiziente untere Schranke nutzen, um die wechselseitige Information zwischen den beiden Eingabemodalitäten zu maximieren. Dies ermöglicht es, CLIP-Lite mit erheblich reduzierten Datenmengen und Batch-Größen zu trainieren und dabei eine bessere Leistung als CLIP im selben Maßstab zu erzielen. Wir evaluieren CLIP-Lite durch Vortraining auf dem COCO-Captions-Datensatz und testen das Transfer-Lernen auf andere Datensätze. CLIP-Lite erzielt einen absoluten Leistungszuwachs von +14,0 % mAP bei der Pascal-VOC-Klassifikation und einen Zuwachs von +22,1 % Top-1-Genauigkeit auf ImageNet, während es vergleichbar oder überlegen gegenüber anderen, komplexeren, textüberwachten Modellen ist. CLIP-Lite ist CLIP zudem bei der Bild- und Textsuche, der Zero-Shot-Klassifikation und dem visuellen Grounding überlegen. Schließlich zeigen wir, dass CLIP-Lite die Semantik der Sprache nutzen kann, um verzerrungsfreie visuelle Repräsentationen zu fördern, die in nachgelagerten Aufgaben verwendet werden können. Implementierung: https://github.com/4m4n5/CLIP-Lite

Zitation

@inproceedings{shrivastava2023clip,
  title = {CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations},
  author = {Shrivastava, Aman and Selvaraju, Ramprasaath R. and Naik, Nikhil and Ordonez, Vicente},
  year = {2023},
  booktitle = {Int. Conf. on Artificial Intelligence and Statistics AISTATS 2023},
  url = {https://arxiv.org/abs/2112.07133},
}