Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla; Kalpathy Sitaraman; Mengjia Luo; Vicente Ordonez

← voltar às publicações

publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.

arXiv:1908.03180. August 2019.

artigo project page pdf bibtex bruto

Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da University of Virginia e da Microsoft lançaram o Moviescope, um conjunto de dados com 5.000 filmes que combina trailers em vídeo, áudio, pôsteres, sinopses em texto e metadados extraídos de fontes como YouTube, Wikipedia e IMDb, a fim de testar sistematicamente quão bem diferentes tipos de dados conseguem prever atributos de alto nível dos filmes, como gênero e orçamento de produção. A equipe constatou que operações simples de média sobre embeddings de palavras ou quadros — métodos que eles chamam de fastText e fastVideo — superaram consistentemente abordagens computacionalmente mais custosas, como redes recorrentes LSTM e modelos de reconhecimento de ação projetados para clipes curtos, sugerindo que, para a classificação holística em nível de filme, preservar a ordem temporal importa menos do que os pesquisadores poderiam esperar. As sinopses em texto revelaram-se o melhor preditor isolado de gênero, superando o vídeo e até mesmo os metadados estruturados, enquanto o áudio mostrou-se surpreendentemente útil para estimar o orçamento — superando o sinal de vídeo do mesmo trailer. Um estudo com humanos usando o Amazon Mechanical Turk mostrou que as pessoas tiveram desempenho apenas marginalmente melhor do que os modelos, sendo que os humanos se saíram melhor ao ler o texto da sinopse e tiveram mais dificuldade com quadros de vídeo brutos. A combinação de todas as cinco modalidades produziu os melhores resultados gerais, confirmando que cada tipo de dado captura algo que os outros não percebem. O trabalho é importante porque a maioria dos conjuntos de dados de vídeo existentes foca em clipes de ação curtos e isolados, ao passo que o Moviescope foi projetado para o tipo de compreensão de longo alcance e em nível narrativo que os filmes exigem, e os autores estão disponibilizando seu conjunto de dados, embeddings pré-treinados e código para oferecer a outros pesquisadores um benchmark prático para análise multimodal de vídeo.

resumo

O cinema é uma forma rica de expressão artística. Diferentemente da fotografia e dos vídeos curtos, os filmes contêm um enredo deliberadamente complexo e intrincado a fim de envolver seu público. Neste artigo, apresentamos um estudo em larga escala comparando a eficácia de atributos baseados em recursos visuais, de áudio, de texto e de metadados para prever informações de alto nível sobre filmes, como seu gênero ou orçamento estimado. Demonstramos a utilidade de métodos baseados em conteúdo neste domínio, em contraste com previsões baseadas em humanos e em metadados na era do aprendizado profundo. Além disso, fornecemos um estudo abrangente de métodos de agregação temporal de atributos para representar vídeo e texto, e constatamos que operações simples de pooling são eficazes neste domínio. Também mostramos em que medida diferentes modalidades são complementares entre si. Para isso, apresentamos também o Moviescope, um novo conjunto de dados em larga escala com 5.000 filmes acompanhados de seus respectivos trailers (vídeo + áudio), pôsteres (imagens), sinopses (texto) e metadados.

citação

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}