Moviescope: Large-scale Analysis of Movies using Multiple Modalities
新闻稿摘要
弗吉尼亚大学和 Microsoft 的研究人员发布了 Moviescope,这是一个包含 5,000 部电影的数据集,将视频预告片、音频、电影海报、文本剧情简介和元数据配对在一起,数据取自包括 YouTube、Wikipedia 和 IMDb 在内的来源,以系统地测试不同类型的数据在预测电影高层属性(如类型和制作预算)方面的表现。该团队发现,对词或帧嵌入进行简单平均的操作——他们称之为 fastText 和 fastVideo 的方法——始终优于 LSTM 循环网络和为短片段设计的动作识别模型等计算开销更大的方法,这表明对于整体性的电影级分类而言,保留时序顺序的重要性比研究人员所预期的要低。基于文本的剧情简介结果证明是类型的最强单一预测因子,略胜于视频乃至结构化元数据,而音频在估计预算方面出人意料地有用——优于同一预告片中的视频信号。一项使用 Amazon Mechanical Turk 的人类研究表明,人们的表现仅略好于模型,其中人类在阅读剧情文本时表现最佳,而在面对原始视频帧时最为吃力。将全部五种模态结合在一起取得了最佳的总体结果,证实每种数据类型都捕捉到了其他模态所遗漏的某些信息。这项工作之所以重要,是因为大多数现有视频数据集都聚焦于短小、孤立的动作片段,而 Moviescope 则是为电影所要求的那种长程、叙事层级的理解而设计的,并且作者正在发布他们的数据集、预训练嵌入和代码,以为其他研究人员提供一个用于多模态视频分析的实用基准。
摘要
影视媒体是一种丰富的艺术表达形式。与摄影和短视频不同,电影包含一条为吸引观众而刻意设计得复杂精巧的故事线。在本文中,我们呈现了一项大规模研究,比较了基于视觉、音频、文本和元数据的特征在预测电影高层信息(如其类型或估计预算)方面的有效性。我们证明了在深度学习时代,相较基于人类和基于元数据的预测,基于内容的方法在该领域的实用性。此外,我们对用于表示视频和文本的时序特征聚合方法进行了全面研究,发现简单的池化操作在该领域是有效的。我们还展示了不同模态在多大程度上彼此互补。为此,我们还引入了 Moviescope,这是一个全新的大规模数据集,包含 5,000 部电影及其对应的电影预告片(视频 + 音频)、电影海报(图像)、电影剧情(文本)和元数据。
引用
@article{cascantebonilla2019moviescope,
title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
year = {2019},
journal = {arXiv preprint arXiv:1908.03180},
url = {https://arxiv.org/abs/1908.03180},
}