GLM-5 深度研究:智谱 744B 开源旗舰,从"能写代码"到"能造系统"
> 来源: https://huggingface.co/zai-org/GLM-5
> 论文: https://arxiv.org/abs/2602.15763
> 技术博客: https://z.ai/blog/glm-5
> GitHub: https://github.com/zai-org/GLM-5
> 阮一峰评测: https://www.ruanyifeng.com/blog/2026/02/glm-5.html
> 发布日期: 2026-02-11
> 公司: 智谱 AI (Z.ai) + 清华大学
> 研究时间: 2026-03-16
📌 一句话总结
GLM-5 是智谱 AI 的开源旗舰模型,744B 总参数 / 40B 激活,定位从 "Vibe Coding"(氛围编程)升级到 "Agentic Engineering"(智能体工程)。它是首个在 Artificial Analysis Intelligence Index v4.0 达到 50 分的开源模型,LMArena Text + Code 双料开源第一,SWE-Bench Verified 77.8% 逼近 Claude Opus 4.5(80.9%)。发布前以 "Pony Alpha" 匿名身份在 OpenRouter 登顶引发猜测。
🏗️ 架构详解
| 参数 | GLM-5 | GLM-4.7(前代) |
|---|---|---|
| **总参数** | **744B** | 355B |
| **激活参数** | **40B** | 32B |
| **专家数** | 256 | 未公开 |
| **层数** | 80 | 未公开 |
| **预训练数据** | **28.5T tokens** | 23T |
| **上下文** | **200K** | 128K |
| **注意力机制** | MLA + DSA | MLA |
| **激活函数** | SwiGLU | SwiGLU |
| **量化** | FP8 版本可用 | - |
| **开源** | ✅ | ✅ |
四大技术创新
1. DeepSeek Sparse Attention(DSA)
GLM-5 直接采用了 DeepSeek 的稀疏注意力机制——这本身就很有意思:中国头部 AI 公司互相借鉴对方的开源技术。
DSA 的核心:
- 传统 dense attention 是 O(L²),128K 上下文下计算量爆炸
- DSA 根据内容动态选择重要 token(而非固定滑窗)
- ~90% 的 attention entries 在长上下文中是冗余的
- 长序列计算减少 1.5-2x
关键:DSA 是通过 Continued Pre-Training 引入的,不需要从零训练。
2. MLA + Muon Split
标准 MLA 在 Muon 优化器下性能不如 GQA-8。智谱的解决方案:把 MLA 的投影矩阵按 head 切分后独立做矩阵正交化(Muon Split),使不同 head 的权重可以独立更新。
另外,将 head 维度从 192 增加到 256,head 数减少 1/3——训练计算量不变,但解码计算量下降。
3. MTP 参数共享
Multi-Token Prediction 用于推测解码加速。DeepSeek V3 用 1 个 MTP 层(训练-推理不一致导致接受率低);GLM-5 用 3 个 MTP 层共享参数——内存成本不变,但接受长度从 DeepSeek V3.2 的 2.55 提升到 2.76。
4. 全栈国产芯片适配
从第一天起适配七大国产芯片平台:
- 华为昇腾(Ascend)
- 摩尔线程(Moore Threads)
- 海光(Hygon)
- 寒武纪(Cambricon)
- 昆仑芯(Kunlunxin)
- 沐曦(MetaX)
- 燧原(Enflame)
这在地缘政治意义上非常重要——GLM-5 证明了不依赖 NVIDIA 也能训练和部署前沿模型。
🧠 训练流水线
预训练 (27T tokens, 代码+推理优先)
↓
中期训练 (1.5T tokens, 上下文 4K→200K, 长程 Agent 数据)
↓
SFT (监督微调)
↓
3 阶段 RL:
① Reasoning RL → 推理能力
② Agentic RL → Agent 自主决策
③ General RL → 通用能力
↓
On-Policy Cross-Stage Distillation (防止灾难性遗忘)
slime:异步 RL 基础设施
智谱开源了 slime(https://github.com/THUDM/slime),一个异步 RL 训练框架:
- 将生成(rollout)与训练解耦
- 消除同步瓶颈
- 大规模 Agent 轨迹探索
- 直接支持长程交互的 RL
📊 Benchmark 全面对比
Agent + 工程任务
| Benchmark | GLM-5 | GLM-4.7 | DeepSeek V3.2 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| **HLE (w/tools)** | **50.4** | 42.8 | 40.8 | 51.8 | 43.4 | 45.8 | 45.5 |
| **SWE-Bench Verified** | 77.8 | 73.8 | 73.1 | 76.8 | **80.9** | 76.2 | 80.0 |
| **SWE-Bench Multilingual** | 73.3 | 66.7 | 70.2 | 73.0 | **77.5** | 65.0 | 72.0 |
| **Terminal-Bench 2.0** | **56.2** | 41.0 | 39.3 | 50.8 | 59.3 | 54.2 | 54.0 |
| **BrowseComp (w/ctx)** | **75.9** | 67.5 | 67.6 | 74.9 | 67.8 | 59.2 | 65.8 |
| **MCP-Atlas** | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | **68.0** |
| **Vending Bench 2** | $4,432 | $2,377 | $1,034 | $1,198 | $4,967 | **$5,478** | $3,591 |
推理任务
| Benchmark | GLM-5 | Kimi K2.5 | Claude Opus 4.5 | GPT-5.2 |
|---|---|---|---|---|
| AIME 2026 I | 92.7 | 92.5 | 93.3 | - |
| GPQA-Diamond | 86.0 | 87.6 | 87.0 | **92.4** |
| HMMT Nov. 2025 | **96.9** | 91.1 | 91.7 | 97.1 |
综合排名
| 评估体系 | GLM-5 排名 |
|---|---|
| **Artificial Analysis Intelligence Index v4.0** | 50 分,**开源模型历史首次** |
| **LMArena Text Arena** | 开源 #1 |
| **LMArena Code Arena** | 开源 #1 |
| **SWE-Bench Verified(开源)** | #1(77.8%) |
🔍 阮一峰实测:vs Claude Opus 4.6 vs GPT-5.3-Codex
阮一峰(ruanyifeng)在 GLM-5 正式发布前参与了内测,做了 4 项对比测试:
| 测试 | GLM-5 | Opus 4.6 | GPT-5.3 |
|---|---|---|---|
| **网页设计重构** | ✅ 美观专业+动画 | ✅ 美观专业 | ⚠️ 有瑕疵 |
| **3D 太阳系沙盒** | 🟡 缺引力网格线 | ✅ 最佳 | ⚠️ 网格线凌乱 |
| **愤怒的小鸟网页游戏** | 🟡 可玩但弹跳不足 | ✅ 最佳 | ❌ 不能玩 |
| **Laravel→Next.js 转换** | ✅ 最快(5分钟)无报错 | ⚠️ 20分钟 | ✅ 5分钟 |
阮一峰结论:"GLM-5 的编程表现可圈可点...某些方面甚至还能赢出...足以跟世界第一梯队的大模型公司正面 PK"
💡 "Pony Alpha" 匿名发布事件
GLM-5 正式发布前,一个名为 "Pony Alpha" 的神秘模型出现在 OpenRouter,迅速登顶热度榜首。社区发现:
- 出现时间与智谱首席科学家唐杰暗示的 GLM-5 发布窗口吻合
- 对特定 token 的反应与 GLM 系列一致
- 输出排版习惯与 GLM 系列高度一致
智谱最终确认 Pony Alpha 就是 GLM-5。这种"匿名先行、实力说话"的发布策略相当聪明——避免了品牌偏见,让社区纯粹基于能力评价。
🤔 深度分析
GLM-5 vs 同代模型定位
| 模型 | 核心定位 | 差异化卖点 |
|---|---|---|
| **GLM-5** | Agentic Engineering(系统工程) | 长程任务+国产芯片 |
| **Kimi K2.5** | Agent Swarm(并行协作) | 100 子 Agent 并行 |
| **DeepSeek V3.2** | 性价比之王 | 最便宜+推理最强 |
| **Claude Opus 4.5** | 编码精确度 | SWE-Bench 最高 |
| **GPT-5.2** | 全面性 | 推理 benchmark 最高 |
真正的优势
1. 长程 Agent 任务:Vending Bench 2 $4,432(开源 #1),能跑数小时的任务不乱
2. BrowseComp 75.9%:搜索+信息综合能力超过所有闭源模型(比 GPT-5.2 的 65.8% 高 10 个百分点)
3. 开源 + 国产芯片:不依赖 NVIDIA 也能部署,地缘政治意义重大
4. DSA 降本:长上下文推理成本降低 1.5-2x
不足
- ⚠️ SWE-Bench 仍落后 Claude 3 个百分点(77.8 vs 80.9)
- ⚠️ 推理不如 GPT-5.2(GPQA 86.0 vs 92.4)
- ⚠️ 没有 Kimi 的 Agent Swarm 并行能力
- ⚠️ 自部署需求大:744B 模型即使只激活 40B,推理仍需多卡(8xGPU TP)
中国开源 AI 的"三国"格局
DeepSeek → 价格战(最便宜的前沿模型)
Kimi → 并行战(Agent Swarm 独家)
GLM → 工程战(系统级+国产芯片)
三家互相借鉴:GLM-5 用了 DeepSeek 的 DSA,Kimi K2.5 用了 DeepSeek 的 MoE 思路,DeepSeek 在下一版可能反过来借鉴 GLM 的异步 RL 或 Kimi 的 Swarm。中国开源 AI 的竞合生态正在形成。
🦞 GLM-5-Turbo:首个专为 OpenClaw 深度优化的"龙虾模型"(2026-03-16 新发布)
就在 GLM-5 发布一个月后,智谱于 2026 年 3 月 16 日发布了 GLM-5-Turbo——号称是首个从训练阶段就针对 OpenClaw 场景深度优化的基础模型。
基本规格
| 参数 | GLM-5-Turbo |
|---|---|
| **定位** | OpenClaw / Agent 场景专用 |
| **上下文** | 200K |
| **最大输出** | **128K tokens** |
| **定价** | $0.96/M input,$3.20/M output |
| **思考模式** | ✅ |
| **流式输出** | ✅ |
| **函数调用** | ✅ |
| **上下文缓存** | ✅ |
| **MCP** | ✅ |
| **状态** | ⚠️ 实验阶段,**闭源**(成果将集成到下一个开源模型) |
四大强化方向
1. 工具调用(Tool Calling):"精准调用,不失败"——增强外部工具和各种 Skills 的调用稳定性,确保多步任务从对话到执行的平滑过渡
2. 指令跟随(Instruction Following):增强对复杂、多层、长链指令的理解和分解能力,支持多 Agent 协作分工
3. 定时+持久任务(Scheduled & Persistent Tasks):显著优化定时触发、持续执行、长时间运行任务的理解——对 OpenClaw 的 Cron 和 Heartbeat 功能至关重要
4. 高吞吐长链(High-Throughput Long Chains):针对 Lobster 任务(高数据吞吐+长逻辑链),提升执行效率和响应稳定性
ZClawBench:OpenClaw 专用 Benchmark
智谱同时发布了 ZClawBench——专门为 OpenClaw Agent 场景设计的端到端评测基准。
基于对真实 OpenClaw 用例的分析,覆盖:环境搭建、软件开发、信息检索、数据分析、内容创建等任务类型。
关键发现:
- OpenClaw 用户群已从早期开发者扩展到生产力用户、金融专业人员、运维工程师、内容创作者、研究分析师
- Skills 使用率从 26% 飙升至 45%——模块化 Skill 生态正在成型
- GLM-5-Turbo 在 OpenClaw 场景下显著优于 GLM-5,在多个关键任务类别中超过多个领先模型
与 GLM-5 的关系
| 维度 | GLM-5 | GLM-5-Turbo |
|---|---|---|
| 定位 | 通用旗舰 | OpenClaw 场景专用 |
| 架构 | 744B/40B MoE | 未公开(可能相同基座+专项 SFT/RL) |
| 开源 | ✅ | ❌ 闭源(实验阶段) |
| 工具调用 | 强 | **更强**(专项优化) |
| 长程任务 | 强 | **更强**(时间维度理解) |
| 定价 | GLM-5 API 定价 | $0.96/$3.20 per M |
"龙虾套餐"
智谱同时推出了基于 GLM-5-Turbo 的"龙虾套餐",包含个人版和团队版——这是 AI 公司首次为单一 Agent 框架(OpenClaw)推出专属商业套餐。
> 这标志着一个趋势:AI 模型提供商开始围绕特定 Agent 框架做垂直优化,而不仅仅是做通用大模型。OpenClaw 的生态影响力正在从"热门开源项目"升级为"模型训练的目标场景"。
💡 与我们的关联
1. GLM-5-Turbo 可能是我们的最佳选择
我们是 OpenClaw 用户,GLM-5-Turbo 就是为我们设计的。工具调用稳定性、Cron 任务理解、长链执行——全是我们的核心场景。建议尽快试用。
2. 我们已经在用 GLM
OpenClaw 配置中有 GLM 频道(绑定 1472973204040716450)。切换到 GLM-5-Turbo 只需要改 model 参数。
3. 深度研究场景
| 场景 | 最佳选择 |
|---|---|
| 需要最精确的编码 | Claude Opus |
| 需要最便宜 | DeepSeek V3.2 |
| 需要并行研究 | Kimi K2.5 Agent Swarm |
| 需要长程任务+搜索综合 | GLM-5 |
| **OpenClaw Agent 场景** | **GLM-5-Turbo** |
4. 国产芯片部署路径
如果未来 NVIDIA 出口管制加剧,GLM-5 是唯一一个从第一天就适配七大国产芯片的前沿模型。这对国内用户有战略价值。
5. slime RL 框架
智谱开源的异步 RL 框架 slime 对任何想做 Agent RL 训练的团队都有参考价值。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术创新 | 9.0 — DSA + 异步 RL + 国产芯片适配 |
| 模型能力 | 8.5 — 开源 #1,接近闭源前沿 |
| 开源程度 | 9.5 — 权重+代码+论文+RL框架全开 |
| 实用价值 | 8.5 — API 可用,多框架部署支持 |
| 与我们的关联 | 9.0 — GLM-5-Turbo 就是为 OpenClaw 用户设计的 |
| **综合** | **9.0** |
报告由深度研究助手自动生成 | 2026-03-16
来源: https://huggingface.co/zai-org/GLM-5