Moviescope: Large-scale Analysis of Movies using Multiple Modalities
Zusammenfassung der Pressemitteilung
Forscher der University of Virginia und von Microsoft haben Moviescope veröffentlicht, einen Datensatz von 5.000 Filmen, der Videotrailer, Audio, Filmplakate, textbasierte Handlungszusammenfassungen und Metadaten aus Quellen wie YouTube, Wikipedia und IMDb zusammenführt, um systematisch zu testen, wie gut verschiedene Datentypen übergeordnete Filmmerkmale wie Genre und Produktionsbudget vorhersagen können. Das Team stellte fest, dass einfache Mittelungsoperationen über Wort- oder Frame-Embeddings – Methoden, die sie fastText und fastVideo nennen – durchgängig besser abschnitten als rechenaufwendigere Ansätze wie rekurrente LSTM-Netze und für kurze Clips konzipierte Aktionserkennungsmodelle, was darauf hindeutet, dass bei der ganzheitlichen Klassifikation auf Filmebene die Bewahrung der zeitlichen Reihenfolge weniger wichtig ist, als Forscher erwarten könnten. Textbasierte Handlungszusammenfassungen erwiesen sich als der stärkste einzelne Prädiktor für das Genre und übertrafen Video und sogar strukturierte Metadaten, während sich Audio als überraschend nützlich für die Budgetschätzung herausstellte und das Videosignal aus demselben Trailer übertraf. Eine Humanstudie mit Amazon Mechanical Turk zeigte, dass Menschen nur geringfügig besser abschnitten als die Modelle, wobei sie am besten beim Lesen von Handlungstexten abschnitten und mit rohen Videoframes am meisten Schwierigkeiten hatten. Die Kombination aller fünf Modalitäten lieferte die insgesamt besten Ergebnisse und bestätigte, dass jeder Datentyp etwas erfasst, das den anderen entgeht. Die Arbeit ist von Bedeutung, weil die meisten bestehenden Videodatensätze sich auf kurze, isolierte Aktionsclips konzentrieren, während Moviescope für die Art von weitreichendem, erzählebenenbezogenem Verständnis konzipiert ist, das Filme erfordern, und die Autoren ihren Datensatz, ihre vortrainierten Embeddings und ihren Code veröffentlichen, um anderen Forschern einen praktischen Benchmark für die multimodale Videoanalyse zur Verfügung zu stellen.
Zusammenfassung
Filmmedien sind eine reichhaltige Form des künstlerischen Ausdrucks. Anders als Fotografien und Kurzvideos enthalten Filme eine Handlung, die bewusst komplex und verschachtelt ist, um das Publikum zu fesseln. In dieser Arbeit präsentieren wir eine groß angelegte Studie, in der wir die Wirksamkeit von visuellen, auditiven, textbasierten und metadatenbasierten Merkmalen für die Vorhersage übergeordneter Informationen über Filme – wie etwa ihr Genre oder ihr geschätztes Budget – vergleichen. Wir demonstrieren die Nützlichkeit inhaltsbasierter Methoden in diesem Bereich im Gegensatz zu menschen- und metadatenbasierten Vorhersagen im Zeitalter des Deep Learning. Darüber hinaus liefern wir eine umfassende Studie zu Methoden der zeitlichen Merkmalsaggregation zur Repräsentation von Video und Text und stellen fest, dass einfache Pooling-Operationen in diesem Bereich wirksam sind. Wir zeigen außerdem, inwieweit sich verschiedene Modalitäten gegenseitig ergänzen. Zu diesem Zweck führen wir auch Moviescope ein, einen neuen groß angelegten Datensatz von 5.000 Filmen mit zugehörigen Filmtrailern (Video + Audio), Filmplakaten (Bilder), Filmhandlungen (Text) und Metadaten.
Zitation
@article{cascantebonilla2019moviescope,
title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
year = {2019},
journal = {arXiv preprint arXiv:1908.03180},
url = {https://arxiv.org/abs/1908.03180},
}