AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
보도 자료 요약
라이스 대학교와 Snap Inc.의 연구진은 이 분야를 지배해 온 별도의 전문화된 도구가 아니라 단일 통합 프레임워크를 사용하여, 무음 비디오로부터 동기화된 오디오를 생성하거나 주어진 오디오 클립에 맞는 비디오를 생성할 수 있는 AV-Link라는 시스템을 개발했다. 연구팀이 다룬 핵심 문제는 시간적 정렬이다. 즉, 생성된 출력을 소스 자료의 사건에 실제로 동기화시켜, 예를 들어 드럼 소리가 그저 막연히 드럼처럼 들리는 것이 아니라 드럼스틱이 부딪히는 순간에 정확히 떨어지도록 하는 것이다. 대부분의 기존 접근법은 CLIP이나 ImageBind와 같은 사전 학습된 특징 추출기에 의존하여 한 양식에서 의미를 끌어내 다른 양식의 생성기에 공급하지만, 이러한 추출기는 애초에 정밀한 타이밍을 염두에 두고 설계되지 않았다. 대신 AV-Link는 동결된 사전 학습 오디오 및 비디오 확산 모델의 내부 활성화에 직접 접근하는데, 연구진은 이러한 활성화가 시변(time-varying) 신호를 생성하는 학습의 부산물로 이미 풍부한 시간적 정보를 담고 있음을 발견했다. 동결된 기반 모델 위에 약 1억 8,600만 개의 파라미터를 추가하는 Fusion Block이라는 경량 모듈은, 오디오와 비디오 토큰을 동일한 시간적 기준 프레임에 정렬하는 특별히 설계된 회전 위치 임베딩(rotary position embedding)을 갖춘 공유 셀프 어텐션 연산을 통해 두 생성기를 연결한다. 표준 VGGSounds 벤치마크에서 이 시스템은 소리 사건이 시각적 사건과 얼마나 잘 들어맞는지를 측정하는 온셋(onset) 정확도를 최고 경쟁 기준선 대비 최대 76% 향상시켰으며, 사용자 연구에서는 시간적 정렬 측면에서 훨씬 큰 Meta의 MovieGen Audio 모델보다 63.6%의 비율로 선호되었다. 실용적 의의는 단일 소형 시스템이 텍스트-오디오, 텍스트-비디오, 비디오-오디오, 오디오-비디오 생성을 모두 처리할 수 있어, 자동화된 영화 후반 작업부터 AI 생성 미디어에 이르는 응용을 위한 제작 파이프라인을 단순화할 잠재력이 있다는 점이다.
초록
우리는 동결된 비디오 및 오디오 확산(diffusion) 모델의 활성화를 활용하여 시간적으로 정렬된 교차 모달 조건화를 수행하는, 비디오-오디오(V2A) 및 오디오-비디오(A2V) 생성을 위한 통합 프레임워크 AV-Link를 제안한다. 우리 프레임워크의 핵심은 시간적으로 정렬된 셀프 어텐션(self attention) 연산을 통해 비디오와 오디오 확산 모델 간의 양방향 정보 교환을 촉진하는 Fusion Block이다. A2V와 V2A 작업에 전용 모델을 사용하고 사전 학습된 특징 추출기에 의존하는 기존 연구와 달리, AV-Link는 단일 자기완결형 프레임워크에서 두 작업을 모두 달성하며, 상호 보완적인 양식에서 얻은 특징(즉, 오디오 생성을 위한 비디오 특징, 또는 비디오 생성을 위한 오디오 특징)을 직접 활용한다. 광범위한 자동 및 주관적 평가는 우리 방법이 오디오-비디오 동기화에서 상당한 개선을 달성하여 MovieGen 비디오-오디오 모델과 같은 더 비용이 큰 기준선을 능가함을 입증한다.
세부 정보
인용
@inproceedings{hajiali2025av,
title = {AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation},
author = {Haji-Ali, Moayed and Menapace, Willi and Siarohin, Aliaksandr and Skorokhodov, Ivan and Canberk, Alper and Lee, Kwot Sin and Ordonez, Vicente and Tulyakov, Sergey},
year = {2025},
booktitle = {International Conference on Computer Vision. ICCV 2025},
url = {https://arxiv.org/abs/2412.15191},
}