阶跃星辰 Step 3.5 Flash 深度分析:11B 激活参数如何打赢 37B 模型

> 来源: https://github.com/stepfun-ai/Step-3.5-Flash

> 论文: https://arxiv.org/pdf/2602.10604

> OpenRouter: https://openrouter.ai/stepfun/step-3.5-flash

> 研究时间: 2026-03-19

🎯 一句话版本

阶跃星辰的开源旗舰模型,196B 总参数但只激活 11B,推理成本是 DeepSeek V3.2 的 1/6,却在 Agent 能力上全场最高(τ²-Bench 88.2)。OpenRouter 提供完全免费版本。

📐 架构详解

核心设计

组件规格
骨架45 层 Transformer(4,096 hidden dim)
上下文窗口256K tokens
词表128,896 tokens
总参数196.81B(196B 骨架 + 0.81B Head)
激活参数**~11B**(每 token)
专家数每层 288 个路由专家 + 1 个共享专家(始终激活)
稀疏激活Top-8 专家选择
注意力3:1 滑动窗口注意力(SWA)比例

三大核心技术

1. 细粒度 MoE 路由

288 个路由专家 + 1 个共享专家的设计非常激进。对比:

保留 196B 的"记忆",但以 11B 的成本运行。官方称之为"智能密度"(intelligence density)。

2. MTP-3(3-way Multi-Token Prediction)

单次前向传播预测 4 个 token,推理速度达到 100-300 tok/s(峰值 350 tok/s)。MTP Head 由滑动窗口注意力 + 密集 FFN 组成,不降低质量的前提下大幅加速。

3. 3:1 SWA 混合注意力

每 4 层中有 3 层用滑动窗口注意力,1 层用全注意力。在 256K 长上下文场景下显著降低计算开销,同时保持性能。

📊 性能对比

推理成本对比(128K 上下文,Hopper GPU)

模型激活参数相对成本速度
**Step 3.5 Flash****11B****1.0x**100 tok/s, MTP-3, EP8
MiMo-V2 Flash15B1.2x100 tok/s, MTP-3, EP8
MiniMax M2.110B3.9x100 tok/s, MTP-3, EP8
DeepSeek V3.237B**6.0x**33 tok/s, MTP-1, EP32
GLM-4.732B**18.9x**33 tok/s, no MTP, EP8
Kimi K2 Thinking32B**18.9x**33 tok/s, no MTP, EP32

Step 3.5 Flash 的推理成本是 DeepSeek 的 1/6,Kimi 的 1/19

Benchmark 全面对比

Agent 能力

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2.5GLM-4.7MiniMax M2.1MiMo-V2 Flash
τ²-Bench**88.2**80.385.487.486.680.3
BrowseComp51.651.4**60.6**52.047.445.4
BrowseComp-ZH**66.9**65.062.366.647.851.2
GAIA (no file)**84.5**75.175.961.964.378.2
xbench-DeepSearch**83.7**78.076.772.068.769.3
ResearchRubrics**65.3**55.859.562.060.254.3

Agent 能力全面领先——τ²-Bench、GAIA、xbench-DeepSearch、ResearchRubrics 四项第一。

推理能力

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2.5GLM-4.7
AIME 2025**97.3**93.196.195.7
HMMT 2025 (Feb)**98.4**92.595.497.1
HMMT 2025 (Nov)**94.0**90.293.5
IMOAnswerBench**85.4**78.381.882.0

数学推理全面碾压,AIME 97.3、HMMT 98.4。

编程能力

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2.5GLM-4.7
LiveCodeBench-V6**86.4**83.385.084.9
SWE-bench Verified74.473.1**76.8**73.8
Terminal-Bench 2.0**51.0**46.450.841.0

编程能力与 Kimi K2.5 不相上下,SWE-bench 略低但 Terminal-Bench 领先。

💰 定价与可用性

OpenRouter

版本InputOutput限制
**Free** (`:free`)$0$020 req/min, 50 req/天
**Paid**$0.10/M$0.30/M无限制

两个版本是完全相同的模型,区别仅在速率限制和优先级。

官方 API

区域平台Base URL
国际platform.stepfun.aihttps://api.stepfun.ai/v1
中国platform.stepfun.comhttps://api.stepfun.com/v1

中国平台需要 +86 手机验证。

与其他免费模型对比

模型激活参数上下文Agent推理编程
**Step 3.5 Flash**11B256K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
MiniMax M2.510B196K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Nemotron 3 Super12B262K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Qwen3 Coder35B262K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
gpt-oss-120b120B131K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

🖥️ 本地部署

硬件要求

配置精度适用场景
8×H100/A100 80GBFP8/BF16全速推理
Mac Studio M4 Max本地隐私部署
NVIDIA DGX Spark桌面级部署

支持的推理框架

已适配的 Agent 平台

🏢 关于阶跃星辰

阶跃星辰(StepFun)是中国 AI 创业公司,成立于 2023 年,由前微软亚洲研究院副院长姜大昕创立。

🧠 深度分析

为什么 11B 激活能打赢 37B?

1. 专家数量极多

288 个专家意味着模型有极细粒度的"知识分区"。每个 token 选 Top-8,相当于在 288 个专家中精确选择最相关的 8 个,比粗粒度 MoE(如 DeepSeek 的 ~160 专家)更精准。

2. 共享专家始终激活

1 个共享专家充当"通用知识库",确保基础能力不受路由波动影响。

3. MTP-3 不只是加速

多 token 预测不仅提速,还迫使模型学习更长距离的依赖关系,间接提升了推理质量。

局限性

对 AI Agent 生态的意义

Step 3.5 Flash 证明了一个重要趋势:Agent 时代的模型竞争焦点是效率,不是参数量

11B 激活参数做到了 37B 模型的水平,这意味着:

这正是 MoE 架构的终极承诺:用参数存知识,用激活控成本

⭐ 综合评分

维度评分(/10)
模型性能9.0 — 11B 激活打到旗舰水平
Agent 能力9.5 — τ²-Bench/GAIA/xbench 三项第一
推理效率9.5 — 成本仅 DeepSeek 的 1/6
开源完整度8.5 — 权重+代码+Cookbook 齐全
本地部署友好度6.0 — 仍需 8 卡或高端 Mac
多模态0 — 纯文本
**综合****8.5**

💡 关键要点

1. 性价比之王:$0.10/$0.30 的价格(或免费)获得旗舰级性能

2. Agent 最强:τ²-Bench 88.2 全场第一,专为 Agent 场景优化

3. MTP-3 是杀手锏:100-350 tok/s 的生成速度让实时交互成为可能

4. MoE 趋势确认:11B 激活 > 37B Dense,效率就是竞争力

5. 免费版是最好的入门选择:小虾等托管平台的理想默认模型

报告由深度研究助手生成 | 2026-03-19

来源: StepFun GitHub + OpenRouter API + 官方 Benchmark