Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla; Kalpathy Sitaraman; Mengjia Luo; Vicente Ordonez

← назад к публикациям

publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.

arXiv:1908.03180. August 2019.

статья project page pdf исходный bibtex

Новостная редакция лаборатории

Краткое изложение пресс-релиза

Этот раздел намеренно написан в стиле журналистского пресс-релиза для широкой аудитории.

Исследователи из University of Virginia и Microsoft выпустили Moviescope — набор данных из 5000 фильмов, объединяющий видеотрейлеры, аудио, киноплакаты, текстовые краткие изложения сюжетов и метаданные, собранные из источников, включая YouTube, Wikipedia и IMDb, чтобы систематически проверить, насколько хорошо различные типы данных могут предсказывать высокоуровневые атрибуты фильмов, такие как жанр и производственный бюджет. Команда обнаружила, что простые операции усреднения по эмбеддингам слов или кадров — методы, которые они называют fastText и fastVideo — стабильно превосходили более вычислительно затратные подходы, такие как рекуррентные сети LSTM и модели распознавания действий, разработанные для коротких клипов, что говорит о том, что для целостной классификации на уровне фильма сохранение временного порядка имеет меньшее значение, чем исследователи могли бы ожидать. Краткие изложения сюжетов на основе текста оказались самым сильным единичным предиктором жанра, опередив видео и даже структурированные метаданные, тогда как аудио оказалось удивительно полезным для оценки бюджета — превзойдя видеосигнал из того же трейлера. Исследование с участием людей с использованием Amazon Mechanical Turk показало, что люди справлялись лишь немногим лучше моделей, причём люди показывали наилучший результат при чтении текста сюжета и больше всего испытывали трудности с сырыми видеокадрами. Комбинирование всех пяти модальностей вместе дало наилучшие общие результаты, подтверждая, что каждый тип данных улавливает нечто, что упускают остальные. Работа важна, поскольку большинство существующих видеонаборов данных сосредоточены на коротких, изолированных клипах действий, тогда как Moviescope разработан для того типа понимания на дальнем, повествовательном уровне, которого требуют фильмы, и авторы выпускают свой набор данных, предобученные эмбеддинги и код, чтобы дать другим исследователям практичный бенчмарк для мультимодального анализа видео.

аннотация

Киноискусство — это богатая форма художественного выражения. В отличие от фотографии и коротких видео, фильмы содержат сюжетную линию, намеренно сложную и запутанную, чтобы вовлекать свою аудиторию. В этой статье мы представляем крупномасштабное исследование, сравнивающее эффективность признаков на основе изображений, аудио, текста и метаданных для предсказания высокоуровневой информации о фильмах, такой как их жанр или предполагаемый бюджет. Мы демонстрируем полезность методов на основе контента в этой области в противовес предсказаниям на основе людей и метаданных в эпоху deep learning. Кроме того, мы предоставляем всестороннее исследование методов временной агрегации признаков для представления видео и текста и обнаруживаем, что простые операции пулинга эффективны в этой области. Мы также показываем, в какой степени различные модальности дополняют друг друга. С этой целью мы также представляем Moviescope — новый крупномасштабный набор данных из 5000 фильмов с соответствующими кинотрейлерами (видео + аудио), киноплакатами (изображения), сюжетами фильмов (текст) и метаданными.

цитирование

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}