The Amazon Nova Family of Models: Technical Report and Model Card
preprint

The Amazon Nova Family of Models: Technical Report and Model Card

Amazon AGI, and 680 additional authors.
arXiv:2506.12103 March 2025.
实验室新闻台

新闻稿摘要

本节特意采用记者式新闻稿的语气,面向普通读者撰写。

Amazon 发布了一套名为 Amazon Nova 的新型 AI 基础模型,涵盖文本、图像和视频生成,并在配套的技术报告中详细介绍了它们的设计和性能。该系列包括三个文本与多模态理解模型——Nova Pro、Nova Lite 和 Nova Micro——以及用于图像生成的 Nova Canvas 和用于视频生成的 Nova Reel。这些理解模型基于 Transformer 架构构建,在涵盖 200 多种语言的多语言数据上训练,所采用的流程从预训练出发,经过监督微调,再通过 DPO 和 PPO 等方法实现基于人类反馈的强化学习。在标准基准测试上,这些模型与 Anthropic、Google 和 OpenAI 的同类产品互有胜负:最小的纯文本模型 Nova Micro 在数学和推理任务上能与同等规模的竞争对手抗衡,而多模态的 Pro 和 Lite 模型在视频字幕生成和多项网页智能体导航测试中名列第一或第二。图像和视频生成模型 Canvas 与 Reel 采用潜在扩散架构,并通过自动指标和人类偏好研究相结合的方式进行评估。值得注意的是,报告强调了实用层面的权衡——Nova Micro 以每秒 210 个 token 的速度生成响应,而 Claude 3.5 Sonnet 为每秒 57 个——这表明该系列模型的竞争力在于性价比,而不仅仅是原始能力。报告还记录了负责任的 AI 措施,包括内部和外部红队测试以及自动化的对抗性测试。此次发布之所以重要,是因为它向开发者和研究人员公开提供了一份详细的说明,阐述了一家大型云服务商的专有模型系列在广泛的真实任务中与前沿竞争对手的对比情况。

摘要

我们推出 Amazon Nova,这是新一代最先进的基础模型,可提供前沿的智能水平和业界领先的性价比。Amazon Nova Pro 是一款功能强大的多模态模型,在广泛的任务中实现了准确性、速度和成本的最佳组合。Amazon Nova Lite 是一款低成本的多模态模型,在处理图像、视频、文档和文本方面速度极快。Amazon Nova Micro 是一款纯文本模型,以极低的成本提供我们延迟最低的响应。Amazon Nova Canvas 是一款图像生成模型,可在丰富的自定义控制下生成专业级图像。Amazon Nova Reel 是一款视频生成模型,提供高质量的输出、自定义和运动控制。我们的模型构建过程秉持负责任的态度,并致力于客户信任、安全性和可靠性。我们报告了核心能力、智能体性能、长上下文、功能适应性、运行时性能和人工评估等方面的基准测试结果。

详情

备注
48 pages, 10 figures

引用

@article{agi2025amazon,
  title = {The Amazon Nova Family of Models: Technical Report and Model Card},
  author = {AGI, Amazon and authors, and 680 additional},
  year = {2025},
  journal = {arXiv preprint arXiv:2506.12103},
  url = {https://arxiv.org/abs/2506.12103},
}