Bedrock 新模型实测：MiniMax M2.5 vs GLM 5 — Agentic 能力横评¶

Lab 信息

难度: ⭐⭐ 中级
预估时间: 30 分钟
预估费用: < $0.50（纯 API 调用）
Region: us-east-1
最后验证: 2026-03-19

背景¶

2026 年 3 月 18 日，Amazon Bedrock 同时上线了两个新模型：

MiniMax M2.5 — 来自 MiniMax，定位 "agent-native frontier model"，通过 RL 优化 token 效率
GLM 5 — 来自 Z.AI（智谱），定位 "frontier-class LLM for complex systems engineering and long-horizon agentic tasks"

两个模型都主打 Agentic 能力：多步推理、工具调用、复杂任务分解。

本文通过 4 个维度的实测对比，帮你决定哪个模型更适合你的场景。

前置条件¶

AWS 账号（需要 Bedrock 模型访问权限）
AWS CLI v2 已配置
两个模型都已 默认 AUTHORIZED，无需申请 model access

核心概念¶

模型基础信息¶

	MiniMax M2.5	GLM 5
Provider	MiniMax	Z.AI（智谱）
Model ID	`minimax.minimax-m2.5`	`zai.glm-5`
输入/输出	TEXT only	TEXT only
Streaming	✅	✅
Tool Use	✅	✅
Vision	❌	❌
内置推理链	✅ 自动返回 `reasoningContent`	❌
定价（us-east-1）	$0.30 / $1.20 per 1M tokens	$1.00 / $3.20 per 1M tokens

关键差异：MiniMax M2.5 的每次响应都会自动返回 reasoningContent（推理链），类似 Claude 的 extended thinking，但不需要手动开启——这直接影响了 output tokens 和延迟。

同系列已有模型¶

Bedrock 上还有这些同家族的模型可选：

MiniMax：M2、M2.1（前代）
Z.AI：GLM 4.7、GLM 4.7 Flash

动手实践¶

Step 1: 确认模型可用性¶

# 列出 MiniMax 和 GLM 模型
aws bedrock list-foundation-models \
  --query 'modelSummaries[?contains(modelId, `minimax`) || contains(modelId, `glm`)].{ID:modelId,Name:modelName,Provider:providerName}' \
  --region us-east-1 --output table

# 确认模型已授权
aws bedrock get-foundation-model-availability \
  --model-id minimax.minimax-m2.5 --region us-east-1

aws bedrock get-foundation-model-availability \
  --model-id zai.glm-5 --region us-east-1

两个模型的 authorizationStatus 都应为 AUTHORIZED。

Step 2: 基础调用测试¶

# MiniMax M2.5
aws bedrock-runtime converse \
  --model-id minimax.minimax-m2.5 \
  --messages '[{"role":"user","content":[{"text":"What is 2+2? Reply with just the number."}]}]' \
  --region us-east-1 --output json

注意观察 MiniMax M2.5 的返回——即使是如此简单的问题，它也会返回 reasoningContent：

{
  "output": {
    "message": {
      "content": [
        {
          "reasoningContent": {
            "reasoningText": {
              "text": "We need to read the conversation... The user wants just the number. So answer \"4\"."
            }
          }
        },
        { "text": "\n\n4" }
      ]
    }
  },
  "usage": { "inputTokens": 51, "outputTokens": 99, "totalTokens": 150 }
}

同样的问题，GLM 5：

{
  "output": {
    "message": {
      "content": [{ "text": "4" }]
    }
  },
  "usage": { "inputTokens": 18, "outputTokens": 2, "totalTokens": 20 }
}

Token 差异一目了然：M2.5 用了 150 tokens（含推理链），GLM 5 只用了 20 tokens。

Step 3: Tool Use 测试¶

# 创建 tool 定义
cat > /tmp/toolconfig.json << 'EOF'
{
  "tools": [{
    "toolSpec": {
      "name": "get_weather",
      "description": "Get current weather for a location",
      "inputSchema": {
        "json": {
          "type": "object",
          "properties": {
            "location": { "type": "string", "description": "City name" },
            "unit": { "type": "string", "enum": ["celsius", "fahrenheit"] }
          },
          "required": ["location"]
        }
      }
    }
  }]
}
EOF

# 测试多工具调用
aws bedrock-runtime converse \
  --model-id minimax.minimax-m2.5 \
  --messages '[{"role":"user","content":[{"text":"What is the weather in Tokyo and New York?"}]}]' \
  --tool-config file:///tmp/toolconfig.json \
  --region us-east-1 --output json

两个模型都成功返回了 2 个并行的 toolUse 调用（stopReason: tool_use），正确识别需要分别查询两个城市。

Step 4: 完整 Benchmark¶

我们设计了 4 个测试场景 + 1 个速度测试，覆盖 Agentic 关键能力：

测试	场景	考察能力
Math Reasoning	2^2026 mod 7（Fermat 定理）	多步推理、数学能力
Code Generation	Thread-safe LRU Cache + TTL	代码生成质量
Tool Use	同时查询两个城市天气	工具调用、并行决策
Agentic Diagnosis	ECS 503 故障诊断	复杂分析、结构化输出
Speed Test	简单 Q&A × 5 轮	延迟稳定性

实测数据¶

核心对比¶

测试场景	模型	API Latency	Input Tokens	Output Tokens	内置推理
Math Reasoning	M2.5	28,116ms	66	1,065	✅
	GLM 5	12,110ms	33	493	❌
Code Generation	M2.5	45,457ms	61	3,234	✅
	GLM 5	40,894ms	28	1,733	❌
Tool Use	M2.5	3,468ms	207	86	✅
	GLM 5	1,146ms	177	39	❌
Agentic Diagnosis	M2.5	50,562ms	124	3,504	✅
	GLM 5	20,603ms	94	926	❌

Speed Test（5 轮平均）¶

模型	平均 Latency	平均 Output Tokens	延迟稳定性
MiniMax M2.5	3,985ms	299	稳定（3.3-5.3s）
GLM 5	~1,700ms*	73	偶有抖动

*GLM 5 有一次异常值 15,158ms，剔除后平均约 1,700ms。

Token 效率 vs 单价：谁更便宜？¶

虽然 GLM 5 每次请求的 token 消耗远低于 M2.5，但 GLM 5 的单价显著更高：

指标	MiniMax M2.5	GLM 5
Input 单价	$0.30 / 1M	$1.00 / 1M
Output 单价	$1.20 / 1M	$3.20 / 1M
简单问答 Input	51 tokens	18 tokens
简单问答 Output	99 tokens	2 tokens
复杂任务 Output	3,504 tokens	926 tokens

实际成本对比（以 Agentic Diagnosis 为例）：

模型	Input Cost	Output Cost	单次总成本
M2.5	124 × $0.30/1M = $0.000037	3,504 × $1.20/1M = $0.004205	$0.004242
GLM 5	94 × $1.00/1M = $0.000094	926 × $3.20/1M = $0.002963	$0.003057

结论：GLM 5 单价贵 3x，但因为 token 消耗低（无推理链），复杂任务实际每请求成本仍略低于 M2.5。简单任务差距更大——M2.5 简单问答 99 output tokens × $1.20/1M = $0.000119，GLM 5 仅 2 tokens × $3.20/1M = $0.000006，差 20 倍。

M2.5 的 output tokens 显著偏高，主因是内置推理链始终开启——推理部分也计入 output tokens 计费。

踩坑记录¶

MiniMax M2.5 的推理链始终开启

M2.5 的 reasoningContent 是默认行为，无法通过 Converse API 关闭。即使是 "2+2=?" 也会产生推理过程。这意味着：

Output tokens 始终偏高，简单场景下成本可能是 GLM 5 的 10-50x
延迟也会因推理过程而增加
如果你的应用不需要推理链透明度，这些 tokens 纯属浪费

建议：如果需要控制推理 tokens，考虑使用 inferenceConfig 的 maxTokens 限制。

GLM 5 的 tokenizer 差异

同样的 prompt，GLM 5 的 input tokens 只有 M2.5 的约 50%（如 18 vs 51）。这不是因为 GLM 5 "更高效"，而是不同 tokenizer 的编码方式不同。在比较成本时，必须同时考虑 token 数量和单价。

GLM 5 偶发延迟抖动

5 轮速度测试中，GLM 5 有一次延迟飙到 15,158ms（其余 4 次平均 1,700ms）。可能是冷启动或后端路由波动。生产环境建议设置合理的 timeout 和 retry。

费用明细¶

资源	说明	费用
MiniMax M2.5 API 调用	~13,000 output tokens × $1.20/1M	~$0.016
GLM 5 API 调用	~4,500 output tokens × $3.20/1M	~$0.014
合计		< $0.05

清理资源¶

本 Lab 仅使用 Bedrock On-Demand API 调用，无需清理任何资源。不会产生持续费用。

结论与建议¶

一句话总结¶

MiniMax M2.5 = 内置 Deep Thinking 的重型推理模型；GLM 5 = 快速高效的轻量 Agent 引擎。

选型指南¶

场景	推荐模型	原因
高吞吐 Agent/Chatbot	GLM 5	Tool Use 仅 1.1s，延迟低 3x
需要推理透明度	MiniMax M2.5	自动返回推理链，适合审计场景
成本敏感应用	看场景	M2.5 单价低但 token 多，GLM 5 单价高但 token 省；简单任务 GLM 5 更省，复杂任务两者接近
复杂分析报告	MiniMax M2.5	输出更详细，格式化更好
实时交互（< 2s）	GLM 5	简单 Q&A 平均 1.7s
数学/代码竞赛	两个都行	都答对了，看你更在意速度还是详细度

与 Bedrock 已有模型的定位对比¶

                  推理深度 →
  速度 ↑  ┌────────────────────────┐
          │ GLM 5       │ M2.5     │
          │ (快+省)     │ (详+透明) │
          ├─────────────┼──────────┤
          │ Nova Pro    │ Claude   │
          │ DeepSeek    │ Sonnet   │
          └─────────────┴──────────┘

生产环境建议¶

单价 vs 实际成本要分开看 — M2.5 单价便宜（$0.30/$1.20）但推理链导致 token 多，GLM 5 单价贵（$1.00/$3.20）但 token 省。按实际请求算，简单任务 GLM 5 便宜 20 倍，复杂任务两者接近
GLM 5 适合做 Agent 的 "fast path" — 工具选择、简单判断用 GLM 5，复杂推理切换到更强模型
两个模型都不支持 Vision — 如果需要图像输入，仍需 Claude/Nova
建议 A/B 测试 — 在你的实际 prompt 上跑两个模型，看哪个的输出质量/成本比更适合