VisualNews : Benchmark and Challenges in Entity-aware Image Captioning

Fuxiao Liu; Yinghan Wang; Tianlu Wang; Vicente Ordonez

publication

VisualNews : Benchmark and Challenges in Entity-aware Image Captioning

Fuxiao Liu, Yinghan Wang, Tianlu Wang, Vicente Ordonez.

Empirical Methods in Natural Language Processing. EMNLP 2021. Virtual / Punta Cana, Dominican Republic. November 2021.

論文 code pdf 生の bibtex

研究室ニュースデスク

プレスリリース要約

このセクションは、一般の読者向けに、意図的に報道発表（記者）スタイルの文体で書かれています。

University of Maryland、University of Virginia、Rice Universityの研究者らは、The Guardian、BBC、USA Today、The Washington Postという4つの報道機関から取得した記事本文、キャプション、メタデータとペアになった100万枚を超えるニュース画像のデータセットVisual Newsを公開しました。これは、この種のものとしては現在までで最大のコレクションとなります。この研究は、画像キャプショニング研究における本質的なギャップに対処しています。Microsoft COCOのような既存のデータセットは、「赤い傘を持った人々の集団」といった一般的な記述を生成するようにモデルを学習させますが、それらはニュース写真を意味あるものにする「誰が」「どこで」「何を」を捉えられません。このデータセットを活用するため、研究チームはまた、画像と付随する記事本文の両方から情報を引き出し、漠然としたプレースホルダーではなく、人物、場所、組織といった具体的な固有表現を含むキャプションを生成する、Transformerベースのモデルである Visual News Captioner も構築しました。このモデルには、「Attention on Attention（注意への注意）」機構、エンコーディング中に画像特徴とテキスト特徴を結びつけるVisual Selective Layer、そしてモデルの語彙外に外れる稀な単語を扱うTag-Cleaningステップなど、いくつかの技術的追加が導入されています。3つのデータセットで競合アプローチと比較してテストしたところ、Visual News Captionerは、最も近いライバルのおよそ半分のパラメータ数を用いながら、標準的なキャプショニング指標で最先端と同等またはそれ以上の成績を収めました。研究者らはまた、ある通信社のデータで学習したモデルが、別の通信社のコンテンツでテストすると目に見えて性能が低下することも発見し、報道現場ごとに書き方のスタイルや編集上の重点がいかに大きく異なるか、そして真に多様な設定ではこの問題がいかに難しくなるかを浮き彫りにしました。

要旨

我々は、ニュース画像キャプショニングのタスクのためのエンティティ認識モデルであるVisual News Captionerを提案します。また、100万枚を超えるニュース画像に加えて、関連するニュース記事、画像キャプション、著者情報、その他のメタデータからなる大規模ベンチマークであるVisual Newsを導入します。標準的な画像キャプショニングタスクとは異なり、ニュース画像は人物、場所、出来事が最も重要となる状況を描写します。我々の提案手法は、視覚特徴とテキスト特徴を効果的に組み合わせて、出来事やエンティティといったより豊かな情報を含むキャプションを生成できます。より具体的には、Transformerアーキテクチャの上に構築された我々のモデルには、固有表現をより正確に生成するために設計された新たなマルチモーダル特徴融合技術と注意機構がさらに備わっています。我々の手法は、競合手法よりもわずかに優れた予測結果を達成しつつ、はるかに少ないパラメータを利用します。我々のより大規模で多様なVisual Newsデータセットは、ニュース画像のキャプショニングに残された課題をさらに浮き彫りにします。

詳細

コメント: 9 pages, 5 figures, accepted to EMNLP2021

引用

@inproceedings{liu2021visualnews,
  title = {VisualNews : Benchmark and Challenges in Entity-aware Image Captioning},
  author = {Liu, Fuxiao and Wang, Yinghan and Wang, Tianlu and Ordonez, Vicente},
  year = {2021},
  booktitle = {Empirical Methods in Natural Language Processing. EMNLP 2021},
  url = {https://arxiv.org/abs/2010.03743},
}