Moviescope: Large-scale Analysis of Movies using Multiple Modalities
publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.
arXiv:1908.03180. August 2019.
Mesa de notícias do laboratório

Resumo do comunicado de imprensa

Esta seção foi escrita intencionalmente em tom de comunicado de imprensa, em estilo jornalístico, para o público geral.

Pesquisadores da University of Virginia e da Microsoft lançaram o Moviescope, um conjunto de dados com 5.000 filmes que combina trailers em vídeo, áudio, pôsteres, sinopses em texto e metadados extraídos de fontes como YouTube, Wikipedia e IMDb, a fim de testar sistematicamente quão bem diferentes tipos de dados conseguem prever atributos de alto nível dos filmes, como gênero e orçamento de produção. A equipe constatou que operações simples de média sobre embeddings de palavras ou quadros — métodos que eles chamam de fastText e fastVideo — superaram consistentemente abordagens computacionalmente mais custosas, como redes recorrentes LSTM e modelos de reconhecimento de ação projetados para clipes curtos, sugerindo que, para a classificação holística em nível de filme, preservar a ordem temporal importa menos do que os pesquisadores poderiam esperar. As sinopses em texto revelaram-se o melhor preditor isolado de gênero, superando o vídeo e até mesmo os metadados estruturados, enquanto o áudio mostrou-se surpreendentemente útil para estimar o orçamento — superando o sinal de vídeo do mesmo trailer. Um estudo com humanos usando o Amazon Mechanical Turk mostrou que as pessoas tiveram desempenho apenas marginalmente melhor do que os modelos, sendo que os humanos se saíram melhor ao ler o texto da sinopse e tiveram mais dificuldade com quadros de vídeo brutos. A combinação de todas as cinco modalidades produziu os melhores resultados gerais, confirmando que cada tipo de dado captura algo que os outros não percebem. O trabalho é importante porque a maioria dos conjuntos de dados de vídeo existentes foca em clipes de ação curtos e isolados, ao passo que o Moviescope foi projetado para o tipo de compreensão de longo alcance e em nível narrativo que os filmes exigem, e os autores estão disponibilizando seu conjunto de dados, embeddings pré-treinados e código para oferecer a outros pesquisadores um benchmark prático para análise multimodal de vídeo.

resumo

O cinema é uma forma rica de expressão artística. Diferentemente da fotografia e dos vídeos curtos, os filmes contêm um enredo deliberadamente complexo e intrincado a fim de envolver seu público. Neste artigo, apresentamos um estudo em larga escala comparando a eficácia de atributos baseados em recursos visuais, de áudio, de texto e de metadados para prever informações de alto nível sobre filmes, como seu gênero ou orçamento estimado. Demonstramos a utilidade de métodos baseados em conteúdo neste domínio, em contraste com previsões baseadas em humanos e em metadados na era do aprendizado profundo. Além disso, fornecemos um estudo abrangente de métodos de agregação temporal de atributos para representar vídeo e texto, e constatamos que operações simples de pooling são eficazes neste domínio. Também mostramos em que medida diferentes modalidades são complementares entre si. Para isso, apresentamos também o Moviescope, um novo conjunto de dados em larga escala com 5.000 filmes acompanhados de seus respectivos trailers (vídeo + áudio), pôsteres (imagens), sinopses (texto) e metadados.

citação

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}