AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
publication

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov.
International Conference on Computer Vision. ICCV 2025. Honolulu, HI.
实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气,面向普通读者撰写。

莱斯大学和 Snap Inc. 的研究人员开发了一个名为 AV-Link 的系统,它能够从无声视频生成同步音频,或生成视频以匹配给定的音频片段,使用的是单一统一框架,而非长期主导该领域的各类专用工具。研究团队所攻克的核心问题是时间对齐——让生成的输出与源素材中的事件真正同步,从而使得诸如鼓点恰好在鼓槌击打时落下,而不仅仅是听起来隐约像鼓声。大多数现有方法依赖 CLIP 或 ImageBind 等预训练特征提取器,从一种模态中提取语义并将其馈送给另一种模态的生成器,但这些提取器从未针对精确的时间控制而设计。相反,AV-Link 直接接入冻结的、预训练的音频和视频扩散模型的内部激活值,研究人员发现,作为学习生成时变信号的副产品,这些激活值已经蕴含了丰富的时间信息。一个名为 Fusion Block 的轻量级模块——在冻结的基础模型之上增加约 1.86 亿个参数——通过一个共享的自注意力操作连接两个生成器,并采用专门设计的旋转位置编码,将音频和视频 token 对齐到相同的时间参考框架。在标准的 VGGSounds 基准上,该系统将起始点准确度(衡量声音事件与视觉事件对齐程度的指标)相比最优竞争基线提升了最多 76%,并且在用户研究中,在时间对齐方面有 63.6% 的情况下被认为优于 Meta 规模大得多的 MovieGen Audio 模型。其实际意义在于,单一紧凑的系统就能处理文本到音频、文本到视频、视频到音频以及音频到视频的生成,有望简化从自动化影视后期制作到 AI 生成媒体等各类应用的制作流程。

摘要

我们提出 AV-Link,一个用于视频到音频(V2A)和音频到视频(A2V)生成的统一框架,它利用冻结的视频和音频扩散模型的激活值,实现时间对齐的跨模态条件控制。我们框架的关键是一个 Fusion Block,它通过时间对齐的自注意力操作,促进视频与音频扩散模型之间的双向信息交换。与先前为 A2V 和 V2A 任务使用专用模型并依赖预训练特征提取器的工作不同,AV-Link 在单一自包含框架中完成这两项任务,直接利用从互补模态获得的特征(即用视频特征生成音频,或用音频特征生成视频)。大量的自动评估和主观评估表明,我们的方法在音视频同步方面取得了显著改进,超越了诸如 MovieGen 视频到音频模型等成本更高的基线。

详情

备注
Project Page: snap-research.github.io/AVLink/

引用

@inproceedings{hajiali2025av,
  title = {AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation},
  author = {Haji-Ali, Moayed and Menapace, Willi and Siarohin, Aliaksandr and Skorokhodov, Ivan and Canberk, Alper and Lee, Kwot Sin and Ordonez, Vicente and Tulyakov, Sergey},
  year = {2025},
  booktitle = {International Conference on Computer Vision. ICCV 2025},
  url = {https://arxiv.org/abs/2412.15191},
}