VisualNews : Benchmark and Challenges in Entity-aware Image Captioning
Zusammenfassung der Pressemitteilung
Forscher der University of Maryland, der University of Virginia und der Rice University haben Visual News veröffentlicht, einen Datensatz von mehr als einer Million Nachrichtenbildern, die mit Artikeltext, Bildunterschriften und Metadaten aus vier Medien — The Guardian, BBC, USA Today und The Washington Post — gepaart sind, was ihn zur bislang größten Sammlung ihrer Art macht. Die Arbeit adressiert eine echte Lücke in der Forschung zur Bildbeschreibung: Bestehende Datensätze wie Microsoft COCO trainieren Modelle darauf, generische Beschreibungen wie "eine Gruppe von Menschen, die rote Regenschirme halten" zu erzeugen, die das Wer, Wo und Was nicht erfassen, das ein Nachrichtenfoto bedeutsam macht. Um den Datensatz nutzbar zu machen, entwickelte das Team außerdem Visual News Captioner, ein auf dem Transformer basierendes Modell, das sowohl aus dem Bild als auch aus dem begleitenden Artikeltext schöpft, um Bildunterschriften zu erzeugen, die konkrete benannte Entitäten — Personen, Orte und Organisationen — enthalten statt vager Platzhalter. Das Modell führt mehrere technische Erweiterungen ein, darunter einen "Attention on Attention"-Mechanismus, eine Visual Selective Layer, die Bild- und Textmerkmale während der Kodierung verknüpft, und einen Tag-Cleaning-Schritt zur Behandlung seltener Wörter, die außerhalb des Vokabulars des Modells liegen. In Tests gegen konkurrierende Ansätze auf drei Datensätzen erreichte oder übertraf Visual News Captioner den Stand der Technik bei Standard-Metriken zur Bildbeschreibung, während es etwa die Hälfte der Parameter seines nächsten Konkurrenten verwendete. Die Forscher stellten zudem fest, dass Modelle, die auf Daten einer Nachrichtenagentur trainiert wurden, merklich schlechter abschnitten, wenn sie an den Inhalten einer anderen Agentur getestet wurden, was unterstreicht, wie stark Schreibstil und redaktioneller Schwerpunkt zwischen Redaktionen variieren — und wie viel schwieriger das Problem in einem wirklich vielfältigen Umfeld wird.
Zusammenfassung
Wir schlagen Visual News Captioner vor, ein entitätsbewusstes Modell für die Aufgabe der Bildbeschreibung von Nachrichtenbildern. Außerdem führen wir Visual News ein, einen umfangreichen Benchmark, der aus mehr als einer Million Nachrichtenbildern zusammen mit zugehörigen Nachrichtenartikeln, Bildunterschriften, Autoreninformationen und weiteren Metadaten besteht. Anders als bei der Standardaufgabe der Bildbeschreibung stellen Nachrichtenbilder Situationen dar, in denen Personen, Orte und Ereignisse von größter Bedeutung sind. Unsere vorgeschlagene Methode kann visuelle und textuelle Merkmale wirksam kombinieren, um Bildunterschriften mit reichhaltigeren Informationen wie Ereignissen und Entitäten zu erzeugen. Genauer gesagt ist unser Modell, das auf der Transformer-Architektur aufbaut, zusätzlich mit neuartigen multimodalen Techniken zur Merkmalsfusion und Aufmerksamkeitsmechanismen ausgestattet, die darauf ausgelegt sind, benannte Entitäten präziser zu erzeugen. Unsere Methode verwendet deutlich weniger Parameter und erzielt dabei geringfügig bessere Vorhersageergebnisse als konkurrierende Methoden. Unser größerer und vielfältigerer Visual-News-Datensatz hebt zudem die verbleibenden Herausforderungen beim Beschriften von Nachrichtenbildern hervor.
Details
Zitation
@inproceedings{liu2021visualnews,
title = {VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author = {Liu, Fuxiao and Wang, Yinghan and Wang, Tianlu and Ordonez, Vicente},
year = {2021},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2021},
url = {https://arxiv.org/abs/2010.03743},
}