跳转至

Amazon Nova 2 Omni Preview — 多模态推理 + 图像生成 All-in-One(受限预览)

Lab 信息

  • 难度: N/A(受限预览,无法实操)
  • 预估时间: N/A
  • 预估费用: N/A
  • Region: 未公开
  • 最后验证: 2026-03-27

背景

2025 年 12 月,AWS 发布了 Amazon Nova 2 Omni,定位为业界首个同时支持文本 / 图像 / 视频 / 语音输入以及文本 + 图像输出的推理模型。它与已 GA 的 Nova 2 Sonic(实时语音对话)形成互补——Sonic 专注 speech-to-speech,Omni 则是"什么都能进、什么都能出"的全模态模型。

核心亮点:

  • 1M token 上下文窗口
  • 200+ 语言文本处理,10 语言语音输入
  • 图像生成与编辑:角色一致性、图片内文字渲染、自然语言编辑指令
  • 多说话人转录
  • 推理能力:extended thinking 支持

为什么无法测试

Nova 2 Omni 目前处于 Nova Forge 客户限定预览,不对标准 Bedrock API 用户开放。我们通过以下三种方式确认了这一点:

1. 公告原文明确说明

"Nova 2 Omni is in preview with early access available to all Nova Forge customers. Please reach out to your AWS account team for access."

Nova Forge 是 AWS 为大客户提供的定制化模型训练/部署通道,普通 AWS 账号无法自助开通。

2. Bedrock API 不可见

aws bedrock list-foundation-models --region us-east-1 \
  --query "modelSummaries[?contains(modelId, 'nova')].[modelId, modelName]" \
  --output table

返回的 Nova 2 系列模型只有:

模型 ID 状态
amazon.nova-2-lite-v1:0 ✅ GA
amazon.nova-2-sonic-v1:0 ✅ GA
amazon.nova-multimodal-embeddings-v1:0 ✅ GA
amazon.nova-2-omni-* 不存在

3. 官方文档未收录

docs.aws.amazon.com/nova/latest/nova2-userguide/what-is-nova-2.html 的模型列表中同样没有 Omni。

Nova 2 Omni vs Nova 2 Sonic

既然无法实测 Omni,这里整理一下它与已 GA 的 Sonic 的定位差异,方便后续 GA 时快速上手:

维度 Nova 2 Sonic(已 GA) Nova 2 Omni(Preview)
定位 实时对话 AI(speech-to-speech) All-in-one 多模态推理 + 图像生成
输入 语音、文本 文本、图像、视频、语音
输出 语音、文本 文本、图像
核心能力 实时双向语音对话 多模态理解 + 图像生成/编辑 + 语音转录
独特特性 Polyglot voices、async tool calling 角色一致性图像、图片内文字渲染
语言 7 语言语音 200+ 语言文本、10 语言语音

后续计划

  • 当 Nova 2 Omni 进入 GA 或公开预览后,第一时间进行实测
  • 重点验证方向:图像生成质量 vs DALL-E/Stable Diffusion、多模态推理准确性、extended thinking 效果
  • 关注 nova.amazon.com 和 Bedrock 控制台更新

总结

Nova 2 Omni 在概念上很有吸引力——一个模型覆盖 text/image/video/audio 的输入输出,加上 1M 上下文和推理能力。但目前仅限 Nova Forge 客户预览,标准 Bedrock 用户无法访问。等 GA 后我们会补上完整的 Hands-on Lab。