Moviescope: Large-scale Analysis of Movies using Multiple Modalities
publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.
arXiv:1908.03180. August 2019.
Mesa de noticias del laboratorio

Resumen de prensa

Esta sección está escrita intencionadamente con un tono de nota de prensa, en estilo periodístico, para el público general.

Investigadores de la Universidad de Virginia y Microsoft han publicado Moviescope, un conjunto de datos de 5,000 películas que empareja tráileres de video, audio, pósters de películas, resúmenes de trama en texto y metadatos extraídos de fuentes como YouTube, Wikipedia e IMDb, con el fin de comprobar sistemáticamente qué tan bien pueden los diferentes tipos de datos predecir atributos de alto nivel de las películas, como el género y el presupuesto de producción. El equipo descubrió que las operaciones simples de promediado sobre incrustaciones de palabras o fotogramas —métodos que llaman fastText y fastVideo— superaron consistentemente a enfoques computacionalmente más costosos como las redes recurrentes LSTM y los modelos de reconocimiento de acciones diseñados para clips cortos, lo que sugiere que para la clasificación holística a nivel de película, preservar el orden temporal importa menos de lo que los investigadores podrían esperar. Los resúmenes de trama basados en texto resultaron ser el predictor individual más fuerte del género, por delante del video e incluso de los metadatos estructurados, mientras que el audio resultó sorprendentemente útil para estimar el presupuesto, superando a la señal de video del mismo tráiler. Un estudio con humanos usando Amazon Mechanical Turk mostró que las personas rindieron solo marginalmente mejor que los modelos, con los humanos obteniendo sus mejores resultados al leer el texto de la trama y teniendo más dificultades con los fotogramas de video en bruto. Combinar las cinco modalidades juntas produjo los mejores resultados generales, confirmando que cada tipo de dato captura algo que los demás pasan por alto. El trabajo importa porque la mayoría de los conjuntos de datos de video existentes se centran en clips de acción cortos y aislados, mientras que Moviescope está diseñado para el tipo de comprensión narrativa de largo alcance que demandan las películas, y los autores están publicando su conjunto de datos, las incrustaciones preentrenadas y el código para ofrecer a otros investigadores un benchmark práctico para el análisis multimodal de video.

resumen

El medio cinematográfico es una forma rica de expresión artística. A diferencia de la fotografía y los videos cortos, las películas contienen una trama deliberadamente compleja e intrincada con el fin de cautivar a su audiencia. En este artículo presentamos un estudio a gran escala que compara la eficacia de las características basadas en lo visual, el audio, el texto y los metadatos para predecir información de alto nivel sobre las películas, como su género o su presupuesto estimado. Demostramos la utilidad de los métodos basados en el contenido en este dominio en contraste con las predicciones basadas en humanos y en metadatos en la era del aprendizaje profundo. Además, ofrecemos un estudio exhaustivo de los métodos de agregación temporal de características para representar el video y el texto, y encontramos que las operaciones simples de pooling son eficaces en este dominio. También mostramos en qué medida las diferentes modalidades son complementarias entre sí. Con este fin, también introducimos Moviescope, un nuevo conjunto de datos a gran escala de 5,000 películas con sus correspondientes tráileres (video + audio), pósters de películas (imágenes), tramas de películas (texto) y metadatos.

cita

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}