VisualNews : Benchmark and Challenges in Entity-aware Image Captioning
Resumo do comunicado de imprensa
Pesquisadores da University of Maryland, da University of Virginia e da Rice University lançaram o Visual News, um conjunto de dados com mais de um milhão de imagens de notícias associadas ao texto dos artigos, legendas e metadados extraídos de quatro veículos — The Guardian, BBC, USA Today e The Washington Post — tornando-o a maior coleção desse tipo até hoje. O trabalho aborda uma lacuna genuína na pesquisa de legendagem de imagens: conjuntos de dados existentes como o Microsoft COCO treinam modelos para produzir descrições genéricas como "um grupo de pessoas segurando guarda-chuvas vermelhos", que não captam o quem, onde e o quê que tornam uma foto de notícia significativa. Para colocar o conjunto de dados em uso, a equipe também construiu o Visual News Captioner, um modelo baseado em Transformer que extrai tanto da imagem quanto do texto do artigo associado para gerar legendas contendo entidades nomeadas específicas — pessoas, lugares e organizações — em vez de marcadores vagos. O modelo introduz várias adições técnicas, incluindo um mecanismo de "Attention on Attention", uma Visual Selective Layer que vincula características de imagem e texto durante a codificação, e uma etapa de Tag-Cleaning para lidar com palavras raras que ficam fora do vocabulário do modelo. Testado contra abordagens concorrentes em três conjuntos de dados, o Visual News Captioner igualou ou superou o estado da arte em métricas padrão de legendagem usando aproximadamente metade do número de parâmetros de seu rival mais próximo. Os pesquisadores também descobriram que modelos treinados com dados de uma agência de notícias tiveram desempenho notavelmente pior quando testados com o conteúdo de outra agência, ressaltando o quanto o estilo de escrita e o foco editorial variam entre as redações — e o quanto o problema se torna mais difícil em um cenário verdadeiramente diverso.
resumo
Propomos o Visual News Captioner, um modelo com consciência de entidades para a tarefa de legendagem de imagens de notícias. Também introduzimos o Visual News, um benchmark de larga escala composto por mais de um milhão de imagens de notícias juntamente com os artigos de notícias associados, legendas de imagens, informações de autoria e outros metadados. Diferentemente da tarefa padrão de legendagem de imagens, as imagens de notícias retratam situações em que pessoas, locais e eventos são de suma importância. Nosso método proposto pode combinar de forma eficaz características visuais e textuais para gerar legendas com informações mais ricas, como eventos e entidades. Mais especificamente, construído sobre a arquitetura Transformer, nosso modelo é ainda equipado com novas técnicas de fusão de características multimodais e mecanismos de atenção, projetados para gerar entidades nomeadas com mais precisão. Nosso método utiliza muito menos parâmetros, alcançando ao mesmo tempo resultados de predição ligeiramente melhores do que os métodos concorrentes. Nosso conjunto de dados Visual News, maior e mais diverso, destaca ainda mais os desafios remanescentes na legendagem de imagens de notícias.
detalhes
citação
@inproceedings{liu2021visualnews,
title = {VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
author = {Liu, Fuxiao and Wang, Yinghan and Wang, Tianlu and Ordonez, Vicente},
year = {2021},
booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2021},
url = {https://arxiv.org/abs/2010.03743},
}