Moviescope: Large-scale Analysis of Movies using Multiple Modalities
プレスリリース要約
バージニア大学とMicrosoftの研究者らは、ジャンルや製作予算といった映画の高水準の属性を、異なる種類のデータがどれだけうまく予測できるかを体系的に検証するため、YouTube、Wikipedia、IMDbなどの情報源から収集した動画予告編、音声、映画ポスター、テキストのあらすじ、メタデータを対応づけた5,000本の映画から成るデータセットMoviescopeを公開した。研究チームは、単語やフレームの埋め込みに対する単純な平均化操作(fastTextおよびfastVideoと呼ぶ手法)が、LSTM再帰型ネットワークや短いクリップ向けに設計された行動認識モデルといった計算コストの高い手法を一貫して上回ることを見いだし、映画全体を対象とした包括的な分類においては、時間的順序の保持が研究者の予想ほど重要ではない可能性を示唆した。テキストによるあらすじはジャンルの単一の予測因子として最も強力であることが判明し、動画や構造化されたメタデータをも上回った。一方、音声は予算の推定に意外なほど有用であることが分かり、同じ予告編の動画信号を上回った。Amazon Mechanical Turkを用いた人間による調査では、人々がモデルをわずかに上回る程度であり、人間はあらすじのテキストを読むときに最も成績が良く、生の動画フレームに最も苦戦することが示された。5つのモダリティをすべて組み合わせることで全体として最良の結果が得られ、各データ型が他のデータ型では捉えられない何かを捉えていることが確認された。既存の動画データセットの多くが短く独立した行動クリップに焦点を当てているのに対し、Moviescopeは映画が要求するような長距離かつ物語レベルの理解のために設計されており、著者らはデータセット、事前学習済み埋め込み、コードを公開して、他の研究者にマルチモーダル動画解析のための実用的なベンチマークを提供している点で、この研究は意義深い。
要旨
映画メディアは芸術表現の豊かな形態である。写真や短編動画とは異なり、映画には観客を引き込むために意図的に複雑で入り組んだストーリーが含まれている。本論文では、ジャンルや推定予算といった映画に関する高水準の情報を予測するために、視覚、音声、テキスト、メタデータに基づく特徴量の有効性を比較する大規模な研究を提示する。深層学習の時代において、人間に基づく予測やメタデータに基づく予測とは対照的に、この領域におけるコンテンツベースの手法の有用性を実証する。さらに、動画とテキストを表現するための時間的特徴量集約手法に関する包括的な研究を提供し、単純なプーリング操作がこの領域で有効であることを見いだす。また、異なるモダリティが互いにどの程度補完的であるかも示す。この目的のために、対応する映画予告編(動画+音声)、映画ポスター(画像)、映画のあらすじ(テキスト)、メタデータを備えた5,000本の映画から成る新しい大規模データセットMoviescopeも導入する。
引用
@article{cascantebonilla2019moviescope,
title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
year = {2019},
journal = {arXiv preprint arXiv:1908.03180},
url = {https://arxiv.org/abs/1908.03180},
}