Moviescope: Large-scale Analysis of Movies using Multiple Modalities
publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.
arXiv:1908.03180. August 2019.
연구실 뉴스 데스크

보도 자료 요약

이 섹션은 일반 독자를 위해 의도적으로 기자 보도 자료 형식으로 작성되었습니다.

버지니아 대학교와 Microsoft의 연구자들은 서로 다른 유형의 데이터가 장르와 제작 예산 같은 고수준 영화 속성을 얼마나 잘 예측할 수 있는지를 체계적으로 시험하기 위해, YouTube, Wikipedia, IMDb를 포함한 출처에서 가져온 비디오 예고편, 오디오, 영화 포스터, 텍스트 줄거리 요약, 메타데이터를 짝지은 5,000편 영화의 데이터셋인 Moviescope를 공개했다. 연구팀은 단어 또는 프레임 임베딩에 대한 단순한 평균 연산, 즉 이들이 fastText 및 fastVideo라 부르는 방법이 LSTM 순환 신경망이나 짧은 클립을 위해 설계된 행동 인식 모델 같은 연산 비용이 더 큰 접근법을 일관되게 능가함을 발견했는데, 이는 전체적인 영화 수준의 분류에서는 시간 순서를 보존하는 것이 연구자들이 예상할 만한 것보다 덜 중요함을 시사한다. 텍스트 기반 줄거리 요약은 장르를 예측하는 가장 강력한 단일 예측 요인으로 드러나 비디오와 심지어 구조화된 메타데이터까지 앞섰으며, 오디오는 예산을 추정하는 데 놀라울 만큼 유용하여 같은 예고편의 비디오 신호를 능가했다. Amazon Mechanical Turk를 사용한 인간 연구는 사람들이 모델보다 미미하게 더 나은 성능을 보였음을 나타냈는데, 인간은 줄거리 텍스트를 읽을 때 가장 잘 수행했고 원시 비디오 프레임에서 가장 어려움을 겪었다. 다섯 가지 양식을 모두 결합했을 때 최고의 전체 결과가 나와, 각 데이터 유형이 다른 것들이 놓치는 무언가를 포착함을 확인했다. 이 연구는 기존 대부분의 비디오 데이터셋이 짧고 고립된 행동 클립에 초점을 맞추는 반면 Moviescope는 영화가 요구하는 장거리 서사 수준의 이해를 위해 설계되었다는 점에서 의미가 있으며, 저자들은 다른 연구자들에게 멀티모달 비디오 분석을 위한 실용적 벤치마크를 제공하기 위해 데이터셋, 사전학습 임베딩, 코드를 공개하고 있다.

초록

영화 매체는 풍부한 형태의 예술적 표현이다. 사진이나 짧은 비디오와 달리, 영화는 관객을 사로잡기 위해 의도적으로 복잡하고 정교하게 짜인 줄거리를 담고 있다. 본 논문에서 우리는 장르나 추정 예산 같은 영화에 관한 고수준 정보를 예측하는 데 있어 시각, 오디오, 텍스트, 메타데이터 기반 특징의 효과를 비교하는 대규모 연구를 제시한다. 우리는 딥러닝 시대에 인간 기반 및 메타데이터 기반 예측과 대비하여 이 영역에서 콘텐츠 기반 방법의 유용성을 입증한다. 추가로, 우리는 비디오와 텍스트를 표현하기 위한 시간적 특징 집계 방법에 대한 포괄적인 연구를 제공하며, 단순한 풀링 연산이 이 영역에서 효과적임을 발견한다. 우리는 또한 서로 다른 양식이 어느 정도까지 상호 보완적인지를 보인다. 이를 위해, 우리는 또한 해당 영화 예고편(비디오 + 오디오), 영화 포스터(이미지), 영화 줄거리(텍스트), 메타데이터를 갖춘 5,000편 영화의 새로운 대규모 데이터셋인 Moviescope를 도입한다.

인용

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}