NVIDIA Nemotron 3:为 Agent 而生的高效开放模型家族

> 来源: https://developer.nvidia.cn/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/

> 研究页面: https://research.nvidia.com/labs/nemotron/Nemotron-3/

> 团队: NVIDIA Nemotron 团队

> 许可: NVIDIA Open Model License(开放权重 + 训练方案 + 数据)

> 日期: 2026-03-12

📌 一句话总结

NVIDIA 发布 Nemotron 3 系列——专为 Agentic AI 设计的开放模型家族,采用 Mamba-Transformer 混合 MoE 架构,原生 100 万 token 上下文,通过多环境强化学习训练,并开放了权重、近 10 万亿 token 训练数据和完整训练方案。

🏗️ 模型家族

型号总参数激活参数定位状态
**Nano**31.6B3.2B(3.6B 含 embedding)高吞吐、低成本 Agent✅ 已发布
**Super**协作 Agent、高并发工作负载✅ 刚发布(2026-03-11)
**Ultra**SOTA 精度、深度推理🔜 2026 上半年

🧬 核心架构:混合 Mamba-Transformer MoE

这是 Nemotron 3 最大的技术创新——把三种架构融合成一个主干:


┌──────────────────────────────────────┐
│          Nemotron 3 主干              │
│                                      │
│  ┌──────────┐  交错部署               │
│  │ Mamba-2  │ → 高效序列建模          │
│  │   层     │   低显存追踪长程依赖     │
│  └──────────┘                        │
│  ┌──────────┐                        │
│  │ MoE 路由 │ → 每 token 只激活部分    │
│  │   层     │   专家,降低延迟        │
│  └──────────┘                        │
│  ┌──────────┐  少量                   │
│  │ 自注意力 │ → 精细注意力            │
│  │   层     │   捕捉逻辑关联          │
│  └──────────┘                        │
└──────────────────────────────────────┘

为什么这个组合重要?

组件解决什么问题对 Agent 的意义
**Mamba**长序列高效处理,显存恒定Agent 可以在 100 万 token 内持续推理
**Transformer**精确注意力,逻辑推理代码、数学、规划等需要精确关联的任务
**MoE**大参数小计算同时运行大量轻量 Agent,降低单个成本

Super & Ultra 额外技术

技术说明
**Latent MoE**专家先在共享潜在空间运算再投影回 token 空间,同成本可调用 **4 倍专家**
**多 Token 预测(MTP)**一次前向传播预测多个 token,规划/代码生成大幅加速
**NVFP4**4 位浮点训练 + 推理,业界领先的成本/精度比

📊 性能数据

Nano(已发布)

对比结果
vs GPT-OSS-20B✅ 精度更高
vs Qwen3-30B-A3B-Thinking✅ 精度更高
推理吞吐(单 H200)Qwen3-30B-A3B 的 **3.3 倍**
推理吞吐(单 H200)GPT-OSS-20B 的 **2.2 倍**
长上下文(RULER)优于 GPT-OSS-20B 和 Qwen3-30B
本地推理速度prompt 处理 842 tok/s(vs Qwen3 的 140 tok/s)

Super(刚发布)

指标数据
预训练数据**25 万亿 token**
上下文长度**100 万 token**
vs 上一代 Nemotron Super吞吐量 **5 倍以上**
SPEED-Bench平均接受长度 3.45 token/步(vs DeepSeek-R1 的 2.70)
推测解码最高 **3 倍实际加速**,无需额外 draft 模型

🔓 开放程度(极高)

NVIDIA 这次开放力度非常大:

开放项状态
模型权重✅ BF16 + FP8
预训练 Base 模型
预训练数据(近 10T token)✅ 可查阅/重用
SFT 数据(1300 万样本)
RL 数据集 + 环境
Agent 安全数据集(1.1 万轨迹)
训练方案(预训练 + RL)✅ GitHub
GenRM 模型✅ Qwen-3-Nemotron-235B
NeMo Gym(RL 环境库)✅ 开源

这几乎是完整的复现材料——从数据到训练到部署全链路开放。

🤖 多环境 RL:真正的 Agent 训练

传统 RL 只在单一环境优化。Nemotron 3 在 NeMo Gym 中跨多种环境训练:

基于轨迹的 RL——不只优化单次回复,而是优化连续动作序列。这让模型在多步工作流中更稳定,减少推理漂移。

📏 100 万 Token 上下文

得益于 Mamba 的恒定显存特性:

vs 传统 Transformer:Transformer 的注意力计算是 O(n²),100 万 token 的成本极高。Mamba 是 O(n),显存几乎恒定。

💡 分析

为什么重要

1. Agent 专用模型:不是"通用大模型顺便做 Agent"——架构(Mamba 长序列 + MoE 低成本)和训练(多环境 RL + 轨迹优化)都围绕 Agent 场景设计

2. 开放程度惊人:10 万亿 token 数据 + 训练方案 + RL 环境全开放——这在大厂模型中几乎前所未有

3. Mamba 验证:Nemotron 3 是 Mamba 架构在大规模生产模型中的首次成功应用之一,证明混合架构可行

4. 推理时预算控制:"Granular Reasoning Budget Control at Inference Time"——可以在推理时控制模型花多少"思考预算"

局限

1. NVIDIA 生态绑定:虽然权重开放,但最佳性能需要 NVIDIA GPU(H200/Blackwell)

2. 许可不是 Apache:NVIDIA Open Model License 不如 Apache-2.0 宽松

3. 本地部署门槛:Nano 30B 可以本地跑,但 Super/Ultra 需要高端 GPU

4. 实际 Agent 表现待验证:benchmark 好不等于实际 Agent 工作流好

与我们的关联

1. Nano 可考虑用于轻量 Agent:31.6B 参数但只激活 3.2B,本地部署效率极高。我们的某些简单任务(分类、摘要)可以用 Nano 替代 API 调用

2. 100 万上下文:如果用于深度研究 Agent,可以一次性塞入多篇论文而不用分块

3. RL 训练方案:如果未来想微调自己的 Agent 模型,NeMo Gym 的多环境 RL 方案是现成的参考

4. Mamba 架构趋势:混合 Mamba-Transformer 可能成为 Agent 模型的标准架构

📊 评分

维度评分(/10)
创新性9.0 — Mamba-Transformer-MoE 三合一 + 多环境 RL
技术深度9.5 — 架构设计 + 训练方案 + 数据管线全公开
实用价值8.5 — Nano 即可用,Super 刚发布
开放程度9.0 — 权重/数据/方案/环境近乎全开放
与我们的关联7.0 — 需要 NVIDIA GPU,但 Nano 本地可跑
**综合****8.6**

报告由深度研究助手自动生成 | 2026-03-12

来源: https://developer.nvidia.cn/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/