VisualNews : Benchmark and Challenges in Entity-aware Image Captioning

Fuxiao Liu; Yinghan Wang; Tianlu Wang; Vicente Ordonez

publication

VisualNews : Benchmark and Challenges in Entity-aware Image Captioning

Fuxiao Liu, Yinghan Wang, Tianlu Wang, Vicente Ordonez.

Empirical Methods in Natural Language Processing. EMNLP 2021. Virtual / Punta Cana, Dominican Republic. November 2021.

artículo code pdf bibtex sin formato

Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Maryland (College Park), la Universidad de Virginia y la Universidad Rice han publicado Visual News, un conjunto de datos de más de un millón de imágenes de noticias emparejadas con el texto de los artículos, subtítulos y metadatos extraídos de cuatro medios —The Guardian, BBC, USA Today y The Washington Post—, lo que lo convierte en la colección más grande de su tipo hasta la fecha. El trabajo aborda un vacío real en la investigación sobre generación de subtítulos de imágenes: los conjuntos de datos existentes como Microsoft COCO entrenan a los modelos para producir descripciones genéricas como «un grupo de personas sosteniendo paraguas rojos», que no logran capturar el quién, el dónde y el qué que hacen significativa una fotografía de noticias. Para poner el conjunto de datos en uso, el equipo también construyó Visual News Captioner, un modelo basado en Transformer que toma información tanto de la imagen como del texto del artículo que la acompaña para generar subtítulos que contienen entidades nombradas específicas —personas, lugares y organizaciones— en lugar de marcadores de posición vagos. El modelo introduce varias incorporaciones técnicas, entre ellas un mecanismo de «Atención sobre la Atención» (Attention on Attention), una Capa de Selección Visual que vincula las características de imagen y texto durante la codificación, y un paso de Limpieza de Etiquetas (Tag-Cleaning) para manejar palabras raras que quedan fuera del vocabulario del modelo. Probado frente a enfoques competidores en tres conjuntos de datos, Visual News Captioner igualó o superó el estado del arte en métricas estándar de generación de subtítulos, usando aproximadamente la mitad de parámetros que su rival más cercano. Los investigadores también descubrieron que los modelos entrenados con datos de una agencia de noticias rindieron notablemente peor al ser evaluados con el contenido de otra agencia, lo que subraya cuánto varían el estilo de redacción y el enfoque editorial entre redacciones, y cuánto más difícil se vuelve el problema en un escenario verdaderamente diverso.

resumen

Proponemos Visual News Captioner, un modelo consciente de entidades para la tarea de generación de subtítulos de imágenes de noticias. También presentamos Visual News, un benchmark a gran escala que consta de más de un millón de imágenes de noticias junto con los artículos de noticias asociados, subtítulos de imágenes, información de autoría y otros metadatos. A diferencia de la tarea estándar de generación de subtítulos de imágenes, las imágenes de noticias representan situaciones en las que las personas, los lugares y los eventos son de suma importancia. Nuestro método propuesto puede combinar eficazmente características visuales y textuales para generar subtítulos con información más rica, como eventos y entidades. Más concretamente, construido sobre la arquitectura Transformer, nuestro modelo está además equipado con novedosas técnicas de fusión de características multimodales y mecanismos de atención, diseñados para generar entidades nombradas con mayor precisión. Nuestro método utiliza muchos menos parámetros y, a la vez, logra resultados de predicción ligeramente mejores que los métodos competidores. Nuestro conjunto de datos Visual News, más grande y diverso, resalta además los desafíos pendientes en la generación de subtítulos para imágenes de noticias.

detalles

comentario: 9 pages, 5 figures, accepted to EMNLP2021

cita

@inproceedings{liu2021visualnews,
  title = {VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
  author = {Liu, Fuxiao and Wang, Yinghan and Wang, Tianlu and Ordonez, Vicente},
  year = {2021},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2021},
  url = {https://arxiv.org/abs/2010.03743},
}