Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla; Kalpathy Sitaraman; Mengjia Luo; Vicente Ordonez

← 返回论文列表

publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.

arXiv:1908.03180. August 2019.

论文 project page pdf 原始 bibtex

实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气，面向普通读者撰写。

弗吉尼亚大学和 Microsoft 的研究人员发布了 Moviescope，这是一个包含 5,000 部电影的数据集，将视频预告片、音频、电影海报、文本剧情简介和元数据配对在一起，数据取自包括 YouTube、Wikipedia 和 IMDb 在内的来源，以系统地测试不同类型的数据在预测电影高层属性（如类型和制作预算）方面的表现。该团队发现，对词或帧嵌入进行简单平均的操作——他们称之为 fastText 和 fastVideo 的方法——始终优于 LSTM 循环网络和为短片段设计的动作识别模型等计算开销更大的方法，这表明对于整体性的电影级分类而言，保留时序顺序的重要性比研究人员所预期的要低。基于文本的剧情简介结果证明是类型的最强单一预测因子，略胜于视频乃至结构化元数据，而音频在估计预算方面出人意料地有用——优于同一预告片中的视频信号。一项使用 Amazon Mechanical Turk 的人类研究表明，人们的表现仅略好于模型，其中人类在阅读剧情文本时表现最佳，而在面对原始视频帧时最为吃力。将全部五种模态结合在一起取得了最佳的总体结果，证实每种数据类型都捕捉到了其他模态所遗漏的某些信息。这项工作之所以重要，是因为大多数现有视频数据集都聚焦于短小、孤立的动作片段，而 Moviescope 则是为电影所要求的那种长程、叙事层级的理解而设计的，并且作者正在发布他们的数据集、预训练嵌入和代码，以为其他研究人员提供一个用于多模态视频分析的实用基准。

摘要

影视媒体是一种丰富的艺术表达形式。与摄影和短视频不同，电影包含一条为吸引观众而刻意设计得复杂精巧的故事线。在本文中，我们呈现了一项大规模研究，比较了基于视觉、音频、文本和元数据的特征在预测电影高层信息（如其类型或估计预算）方面的有效性。我们证明了在深度学习时代，相较基于人类和基于元数据的预测，基于内容的方法在该领域的实用性。此外，我们对用于表示视频和文本的时序特征聚合方法进行了全面研究，发现简单的池化操作在该领域是有效的。我们还展示了不同模态在多大程度上彼此互补。为此，我们还引入了 Moviescope，这是一个全新的大规模数据集，包含 5,000 部电影及其对应的电影预告片（视频 + 音频）、电影海报（图像）、电影剧情（文本）和元数据。

引用

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}