Moviescope: Large-scale Analysis of Movies using Multiple Modalities
publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.
arXiv:1908.03180. August 2019.
Redazione notizie del laboratorio

Sintesi del comunicato stampa

Questa sezione è scritta volutamente con il tono di un comunicato stampa giornalistico, destinato al pubblico generale.

I ricercatori della University of Virginia e di Microsoft hanno rilasciato Moviescope, un dataset di 5.000 film che abbina trailer video, audio, locandine, riassunti testuali delle trame e metadati tratti da fonti tra cui YouTube, Wikipedia e IMDb, allo scopo di verificare in modo sistematico quanto bene i diversi tipi di dati possano predire attributi di alto livello dei film, come il genere e il budget di produzione. Il gruppo ha riscontrato che semplici operazioni di media sugli embedding di parole o fotogrammi — metodi che chiamano fastText e fastVideo — superavano costantemente approcci computazionalmente più onerosi come le reti ricorrenti LSTM e i modelli di riconoscimento delle azioni progettati per clip brevi, suggerendo che, per la classificazione complessiva a livello di film, la conservazione dell'ordine temporale conta meno di quanto i ricercatori potrebbero aspettarsi. I riassunti testuali delle trame si sono rivelati il singolo predittore più efficace del genere, superando di poco il video e persino i metadati strutturati, mentre l'audio si è dimostrato sorprendentemente utile per stimare il budget, superando il segnale video proveniente dallo stesso trailer. Uno studio condotto con persone tramite Amazon Mechanical Turk ha mostrato che gli esseri umani ottenevano risultati solo marginalmente migliori rispetto ai modelli, dando il meglio quando leggevano il testo della trama e facendo più fatica con i fotogrammi video grezzi. La combinazione di tutte e cinque le modalità ha prodotto i migliori risultati complessivi, confermando che ciascun tipo di dato coglie qualcosa che gli altri tralasciano. Il lavoro è importante perché la maggior parte dei dataset video esistenti si concentra su clip di azioni brevi e isolate, mentre Moviescope è progettato per quel tipo di comprensione a lungo raggio, a livello narrativo, che i film richiedono; inoltre gli autori rilasciano il dataset, gli embedding pre-addestrati e il codice per offrire ad altri ricercatori un benchmark pratico per l'analisi video multimodale.

abstract

Il cinema è una ricca forma di espressione artistica. A differenza della fotografia e dei video brevi, i film contengono una trama deliberatamente complessa e articolata, pensata per coinvolgere il pubblico. In questo articolo presentiamo uno studio su larga scala che confronta l'efficacia delle caratteristiche basate su immagini, audio, testo e metadati nel predire informazioni di alto livello sui film, come il loro genere o il budget stimato. Dimostriamo l'utilità dei metodi basati sul contenuto in questo ambito, in contrapposizione alle previsioni umane e a quelle basate sui metadati, nell'era del deep learning. Inoltre, forniamo uno studio completo dei metodi di aggregazione temporale delle caratteristiche per rappresentare video e testo, e riscontriamo che semplici operazioni di pooling risultano efficaci in questo dominio. Mostriamo anche in che misura le diverse modalità siano complementari tra loro. A tal fine, introduciamo anche Moviescope, un nuovo dataset su larga scala di 5.000 film con i relativi trailer (video + audio), locandine (immagini), trame (testo) e metadati.

citazione

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}