Moviescope: Large-scale Analysis of Movies using Multiple Modalities
publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.
arXiv:1908.03180. August 2019.
Rubrique actualités du laboratoire

Résumé du communiqué de presse

Cette section est volontairement rédigée dans le style d'un communiqué de presse, sur un ton journalistique, à destination du grand public.

Des chercheurs de l'Université de Virginie et de Microsoft ont publié Moviescope, un jeu de données de 5 000 films associant bandes-annonces vidéo, audio, affiches de films, résumés textuels d'intrigues et métadonnées extraites de sources telles que YouTube, Wikipedia et IMDb, afin de tester systématiquement dans quelle mesure différents types de données peuvent prédire des attributs de haut niveau des films, comme le genre et le budget de production. L'équipe a constaté que de simples opérations de moyennage sur les plongements de mots ou d'images — des méthodes qu'ils appellent fastText et fastVideo — surpassaient systématiquement des approches plus coûteuses en calcul comme les réseaux récurrents LSTM et les modèles de reconnaissance d'actions conçus pour de courts extraits, ce qui suggère que, pour une classification globale au niveau du film, la préservation de l'ordre temporel importe moins que les chercheurs pourraient le penser. Les résumés d'intrigue fondés sur le texte se sont révélés le meilleur prédicteur unique du genre, devançant la vidéo et même les métadonnées structurées, tandis que l'audio s'est avéré étonnamment utile pour estimer le budget, surpassant le signal vidéo issu de la même bande-annonce. Une étude humaine menée via Amazon Mechanical Turk a montré que les personnes ne faisaient que légèrement mieux que les modèles, les humains obtenant leurs meilleurs résultats à la lecture du texte de l'intrigue et peinant le plus avec les images vidéo brutes. La combinaison des cinq modalités a donné les meilleurs résultats d'ensemble, confirmant que chaque type de données capte quelque chose que les autres manquent. Ce travail est important parce que la plupart des jeux de données vidéo existants se concentrent sur de courts extraits d'action isolés, tandis que Moviescope est conçu pour le type de compréhension à long terme et au niveau narratif qu'exigent les films ; les auteurs publient leur jeu de données, leurs plongements préentraînés et leur code afin d'offrir à d'autres chercheurs un banc d'essai pratique pour l'analyse vidéo multimodale.

résumé

Le média cinématographique est une forme riche d'expression artistique. Contrairement à la photographie et aux vidéos courtes, les films contiennent une intrigue délibérément complexe et élaborée afin de captiver leur public. Dans cet article, nous présentons une étude à grande échelle comparant l'efficacité des caractéristiques visuelles, audio, textuelles et fondées sur les métadonnées pour prédire des informations de haut niveau sur les films, telles que leur genre ou leur budget estimé. Nous démontrons l'utilité des méthodes fondées sur le contenu dans ce domaine, par opposition aux prédictions humaines et fondées sur les métadonnées, à l'ère de l'apprentissage profond. De plus, nous proposons une étude exhaustive des méthodes d'agrégation temporelle des caractéristiques pour représenter la vidéo et le texte, et constatons que de simples opérations de pooling sont efficaces dans ce domaine. Nous montrons également dans quelle mesure les différentes modalités sont complémentaires les unes des autres. À cette fin, nous introduisons aussi Moviescope, un nouveau jeu de données à grande échelle de 5 000 films accompagnés de leurs bandes-annonces (vidéo + audio), de leurs affiches (images), de leurs synopsis (texte) et de leurs métadonnées.

citation

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}