VisualNews : Benchmark and Challenges in Entity-aware Image Captioning
Sintesi del comunicato stampa
Ricercatori di University of Maryland, University of Virginia e Rice University hanno rilasciato Visual News, un dataset di oltre un milione di immagini giornalistiche abbinate al testo degli articoli, alle didascalie e ai metadati provenienti da quattro testate — The Guardian, BBC, USA Today e The Washington Post — rendendolo la più grande raccolta del suo genere fino ad oggi. Il lavoro affronta una reale lacuna nella ricerca sulla generazione di didascalie per immagini: i dataset esistenti come Microsoft COCO addestrano i modelli a produrre descrizioni generiche come "un gruppo di persone che reggono ombrelli rossi", che non riescono a catturare il chi, il dove e il cosa che rendono significativa una foto giornalistica. Per mettere a frutto il dataset, il team ha anche costruito Visual News Captioner, un modello basato su Transformer che attinge sia dall'immagine sia dal testo dell'articolo che la accompagna per generare didascalie contenenti entità nominate specifiche — persone, luoghi e organizzazioni — invece di vaghi segnaposto. Il modello introduce diverse aggiunte tecniche, tra cui un meccanismo di "Attention on Attention", un Visual Selective Layer che collega le caratteristiche dell'immagine e del testo durante la codifica e una fase di Tag-Cleaning per gestire le parole rare che esulano dal vocabolario del modello. Testato a confronto con approcci concorrenti su tre dataset, Visual News Captioner ha eguagliato o superato lo stato dell'arte sulle metriche standard di generazione di didascalie utilizzando all'incirca la metà dei parametri del suo concorrente più vicino. I ricercatori hanno inoltre scoperto che i modelli addestrati sui dati di un'agenzia di stampa ottenevano risultati nettamente peggiori quando testati sui contenuti di un'altra agenzia, sottolineando quanto lo stile di scrittura e l'orientamento editoriale varino da una redazione all'altra — e quanto il problema diventi più difficile in un contesto realmente diversificato.
abstract
Proponiamo Visual News Captioner, un modello consapevole delle entità per il compito di generazione di didascalie per immagini giornalistiche. Introduciamo inoltre Visual News, un benchmark su larga scala composto da oltre un milione di immagini giornalistiche insieme agli articoli di cronaca associati, alle didascalie delle immagini, alle informazioni sugli autori e ad altri metadati. A differenza del compito standard di generazione di didascalie, le immagini giornalistiche raffigurano situazioni in cui persone, luoghi ed eventi sono di importanza primaria. Il metodo da noi proposto è in grado di combinare efficacemente caratteristiche visive e testuali per generare didascalie con informazioni più ricche, come eventi ed entità. Più nello specifico, costruito sull'architettura Transformer, il nostro modello è ulteriormente dotato di nuove tecniche di fusione delle caratteristiche multimodali e di meccanismi di attenzione, progettati per generare le entità nominate in modo più accurato. Il nostro metodo utilizza un numero di parametri molto inferiore ottenendo al contempo risultati di predizione leggermente migliori rispetto ai metodi concorrenti. Il nostro dataset Visual News, più ampio e diversificato, mette ulteriormente in luce le sfide ancora aperte nella generazione di didascalie per immagini giornalistiche.
dettagli
citazione
@inproceedings{liu2021visualnews,
title = {VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author = {Liu, Fuxiao and Wang, Yinghan and Wang, Tianlu and Ordonez, Vicente},
year = {2021},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2021},
url = {https://arxiv.org/abs/2010.03743},
}