Moviescope: Large-scale Analysis of Movies using Multiple Modalities
publication

Moviescope: Large-scale Analysis of Movies using Multiple Modalities

Paola Cascante-Bonilla, Kalpathy Sitaraman, Mengjia Luo, Vicente Ordonez.
arXiv:1908.03180. August 2019.
Bàn tin tức của phòng thí nghiệm

Tóm tắt thông cáo báo chí

Phần này được viết có chủ đích theo giọng văn thông cáo báo chí kiểu nhà báo, dành cho độc giả phổ thông.

Các nhà nghiên cứu tại University of Virginia và Microsoft đã phát hành Moviescope, một bộ dữ liệu gồm 5,000 phim ghép cặp các trailer video, âm thanh, poster phim, các tóm tắt cốt truyện văn bản và siêu dữ liệu được lấy từ các nguồn bao gồm YouTube, Wikipedia và IMDb, nhằm kiểm tra một cách có hệ thống mức độ mà các loại dữ liệu khác nhau có thể dự đoán các thuộc tính phim cấp cao như thể loại và ngân sách sản xuất. Nhóm phát hiện rằng các phép tính trung bình đơn giản trên các embedding của từ hoặc khung hình — các phương pháp họ gọi là fastText và fastVideo — liên tục vượt trội hơn các cách tiếp cận tốn kém về tính toán hơn như các mạng hồi quy LSTM và các mô hình nhận dạng hành động được thiết kế cho các đoạn clip ngắn, gợi ý rằng đối với phân loại ở cấp độ phim tổng thể, việc bảo toàn thứ tự thời gian ít quan trọng hơn so với những gì các nhà nghiên cứu có thể nghĩ. Các tóm tắt cốt truyện dựa trên văn bản hóa ra là yếu tố dự đoán đơn lẻ mạnh nhất về thể loại, vượt qua video và thậm chí cả siêu dữ liệu có cấu trúc, trong khi âm thanh tỏ ra hữu ích một cách đáng ngạc nhiên trong việc ước tính ngân sách — vượt trội hơn tín hiệu video từ cùng một trailer. Một nghiên cứu trên người sử dụng Amazon Mechanical Turk cho thấy con người chỉ làm tốt hơn các mô hình một chút, với con người làm tốt nhất khi đọc văn bản cốt truyện và gặp khó khăn nhất với các khung hình video thô. Kết hợp tất cả năm phương thức lại với nhau mang lại kết quả tổng thể tốt nhất, xác nhận rằng mỗi loại dữ liệu nắm bắt một điều gì đó mà các loại khác bỏ lỡ. Công trình này quan trọng vì hầu hết các bộ dữ liệu video hiện có tập trung vào các đoạn clip hành động ngắn, riêng lẻ, trong khi Moviescope được thiết kế cho loại hiểu biết tầm xa, ở cấp độ tường thuật mà phim đòi hỏi, và các tác giả đang phát hành bộ dữ liệu, các embedding được tiền huấn luyện và mã của họ để mang lại cho các nhà nghiên cứu khác một benchmark thiết thực cho phân tích video đa phương thức.

tóm tắt

Phương tiện điện ảnh là một hình thức biểu đạt nghệ thuật phong phú. Khác với nhiếp ảnh và các video ngắn, phim chứa một cốt truyện được cố ý làm cho phức tạp và tinh vi nhằm thu hút khán giả của nó. Trong bài báo này, chúng tôi trình bày một nghiên cứu quy mô lớn so sánh tính hiệu quả của các đặc trưng dựa trên hình ảnh, âm thanh, văn bản và siêu dữ liệu để dự đoán thông tin cấp cao về phim như thể loại hoặc ngân sách ước tính của chúng. Chúng tôi chứng minh tính hữu ích của các phương pháp dựa trên nội dung trong lĩnh vực này so với các dự đoán dựa trên con người và dựa trên siêu dữ liệu trong kỷ nguyên của Deep Learning. Ngoài ra, chúng tôi cung cấp một nghiên cứu toàn diện về các phương pháp tổng hợp đặc trưng theo thời gian để biểu diễn video và văn bản, và phát hiện rằng các phép gộp (pooling) đơn giản là hiệu quả trong lĩnh vực này. Chúng tôi cũng cho thấy mức độ mà các phương thức khác nhau bổ sung cho nhau. Vì mục đích này, chúng tôi cũng giới thiệu Moviescope, một bộ dữ liệu quy mô lớn mới gồm 5,000 phim với các trailer phim tương ứng (video + âm thanh), poster phim (ảnh), cốt truyện phim (văn bản) và siêu dữ liệu.

trích dẫn

@article{cascantebonilla2019moviescope,
  title = {Moviescope: Large-scale Analysis of Movies using Multiple Modalities},
  author = {Cascante-Bonilla, Paola and Sitaraman, Kalpathy and Luo, Mengjia and Ordonez, Vicente},
  year = {2019},
  journal = {arXiv preprint arXiv:1908.03180},
  url = {https://arxiv.org/abs/1908.03180},
}