GLM-5 深度研究：智谱 744B 开源旗舰，从"能写代码"到"能造系统"

🎯 一句话版本

关于GLM-5 深度研究：智谱 744B 开源旗舰，从"能写代码"到"能造系统"的深度研究报告

> 来源: https://huggingface.co/zai-org/GLM-5

> 论文: https://arxiv.org/abs/2602.15763

> 技术博客: https://z.ai/blog/glm-5

> GitHub: https://github.com/zai-org/GLM-5

> 阮一峰评测: https://www.ruanyifeng.com/blog/2026/02/glm-5.html

> 发布日期: 2026-02-11

> 公司: 智谱 AI (Z.ai) + 清华大学

> 研究时间: 2026-03-16

📌 一句话总结

GLM-5 是智谱 AI 的开源旗舰模型，744B 总参数 / 40B 激活，定位从 "Vibe Coding"（氛围编程）升级到 "Agentic Engineering"（智能体工程）。它是首个在 Artificial Analysis Intelligence Index v4.0 达到 50 分的开源模型，LMArena Text + Code 双料开源第一，SWE-Bench Verified 77.8% 逼近 Claude Opus 4.5（80.9%）。发布前以 "Pony Alpha" 匿名身份在 OpenRouter 登顶引发猜测。

🏗️ 架构详解

参数	GLM-5	GLM-4.7（前代）
总参数	744B	355B
激活参数	40B	32B
专家数	256	未公开
层数	80	未公开
预训练数据	28.5T tokens	23T
上下文	200K	128K
注意力机制	MLA + DSA	MLA
激活函数	SwiGLU	SwiGLU
量化	FP8 版本可用	-
开源	✅	✅

四大技术创新

1. DeepSeek Sparse Attention（DSA）

GLM-5 直接采用了 DeepSeek 的稀疏注意力机制——这本身就很有意思：中国头部 AI 公司互相借鉴对方的开源技术。

DSA 的核心：

传统 dense attention 是 O(L²)，128K 上下文下计算量爆炸
DSA 根据内容动态选择重要 token（而非固定滑窗）
~90% 的 attention entries 在长上下文中是冗余的
长序列计算减少 1.5-2x

关键：DSA 是通过 Continued Pre-Training 引入的，不需要从零训练。

2. MLA + Muon Split

标准 MLA 在 Muon 优化器下性能不如 GQA-8。智谱的解决方案：把 MLA 的投影矩阵按 head 切分后独立做矩阵正交化（Muon Split），使不同 head 的权重可以独立更新。

另外，将 head 维度从 192 增加到 256，head 数减少 1/3——训练计算量不变，但解码计算量下降。

3. MTP 参数共享

Multi-Token Prediction 用于推测解码加速。DeepSeek V3 用 1 个 MTP 层（训练-推理不一致导致接受率低）；GLM-5 用 3 个 MTP 层共享参数——内存成本不变，但接受长度从 DeepSeek V3.2 的 2.55 提升到 2.76。

4. 全栈国产芯片适配

从第一天起适配七大国产芯片平台：

华为昇腾（Ascend）
摩尔线程（Moore Threads）
海光（Hygon）
寒武纪（Cambricon）
昆仑芯（Kunlunxin）
沐曦（MetaX）
燧原（Enflame）

这在地缘政治意义上非常重要——GLM-5 证明了不依赖 NVIDIA 也能训练和部署前沿模型。

🧠 训练流水线


预训练 (27T tokens, 代码+推理优先)
    ↓
中期训练 (1.5T tokens, 上下文 4K→200K, 长程 Agent 数据)
    ↓
SFT (监督微调)
    ↓
3 阶段 RL:
    ① Reasoning RL → 推理能力
    ② Agentic RL → Agent 自主决策
    ③ General RL → 通用能力
    ↓
On-Policy Cross-Stage Distillation (防止灾难性遗忘)

slime：异步 RL 基础设施

智谱开源了 slime（https://github.com/THUDM/slime），一个异步 RL 训练框架：

将生成（rollout）与训练解耦
消除同步瓶颈
大规模 Agent 轨迹探索
直接支持长程交互的 RL

📊 Benchmark 全面对比

Agent + 工程任务

Benchmark	GLM-5	GLM-4.7	DeepSeek V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2
HLE (w/tools)	50.4	42.8	40.8	51.8	43.4	45.8	45.5
SWE-Bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-Bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0	56.2	41.0	39.3	50.8	59.3	54.2	54.0
BrowseComp (w/ctx)	75.9	67.5	67.6	74.9	67.8	59.2	65.8
MCP-Atlas	67.8	52.0	62.2	63.8	65.2	66.6	68.0
Vending Bench 2	$4,432	$2,377	$1,034	$1,198	$4,967	$5,478	$3,591

推理任务

Benchmark	GLM-5	Kimi K2.5	Claude Opus 4.5	GPT-5.2
AIME 2026 I	92.7	92.5	93.3	-
GPQA-Diamond	86.0	87.6	87.0	92.4
HMMT Nov. 2025	96.9	91.1	91.7	97.1

综合排名

评估体系	GLM-5 排名
Artificial Analysis Intelligence Index v4.0	50 分，开源模型历史首次
LMArena Text Arena	开源 #1
LMArena Code Arena	开源 #1
SWE-Bench Verified（开源）	#1（77.8%）

🔍 阮一峰实测：vs Claude Opus 4.6 vs GPT-5.3-Codex

阮一峰（ruanyifeng）在 GLM-5 正式发布前参与了内测，做了 4 项对比测试：

测试	GLM-5	Opus 4.6	GPT-5.3
网页设计重构	✅ 美观专业+动画	✅ 美观专业	⚠️ 有瑕疵
3D 太阳系沙盒	🟡 缺引力网格线	✅ 最佳	⚠️ 网格线凌乱
愤怒的小鸟网页游戏	🟡 可玩但弹跳不足	✅ 最佳	❌ 不能玩
Laravel→Next.js 转换	✅ 最快（5分钟）无报错	⚠️ 20分钟	✅ 5分钟

阮一峰结论："GLM-5 的编程表现可圈可点...某些方面甚至还能赢出...足以跟世界第一梯队的大模型公司正面 PK"

💡 "Pony Alpha" 匿名发布事件

GLM-5 正式发布前，一个名为 "Pony Alpha" 的神秘模型出现在 OpenRouter，迅速登顶热度榜首。社区发现：

出现时间与智谱首席科学家唐杰暗示的 GLM-5 发布窗口吻合
对特定 token 的反应与 GLM 系列一致
输出排版习惯与 GLM 系列高度一致

智谱最终确认 Pony Alpha 就是 GLM-5。这种"匿名先行、实力说话"的发布策略相当聪明——避免了品牌偏见，让社区纯粹基于能力评价。

🤔 深度分析

GLM-5 vs 同代模型定位

模型	核心定位	差异化卖点
GLM-5	Agentic Engineering（系统工程）	长程任务+国产芯片
Kimi K2.5	Agent Swarm（并行协作）	100 子 Agent 并行
DeepSeek V3.2	性价比之王	最便宜+推理最强
Claude Opus 4.5	编码精确度	SWE-Bench 最高
GPT-5.2	全面性	推理 benchmark 最高

真正的优势

1. 长程 Agent 任务：Vending Bench 2 $4,432（开源 #1），能跑数小时的任务不乱

2. BrowseComp 75.9%：搜索+信息综合能力超过所有闭源模型（比 GPT-5.2 的 65.8% 高 10 个百分点）

3. 开源 + 国产芯片：不依赖 NVIDIA 也能部署，地缘政治意义重大

4. DSA 降本：长上下文推理成本降低 1.5-2x

不足

⚠️ SWE-Bench 仍落后 Claude 3 个百分点（77.8 vs 80.9）
⚠️ 推理不如 GPT-5.2（GPQA 86.0 vs 92.4）
⚠️ 没有 Kimi 的 Agent Swarm 并行能力
⚠️ 自部署需求大：744B 模型即使只激活 40B，推理仍需多卡（8xGPU TP）

中国开源 AI 的"三国"格局


DeepSeek → 价格战（最便宜的前沿模型）
Kimi     → 并行战（Agent Swarm 独家）
GLM      → 工程战（系统级+国产芯片）

三家互相借鉴：GLM-5 用了 DeepSeek 的 DSA，Kimi K2.5 用了 DeepSeek 的 MoE 思路，DeepSeek 在下一版可能反过来借鉴 GLM 的异步 RL 或 Kimi 的 Swarm。中国开源 AI 的竞合生态正在形成。

🦞 GLM-5-Turbo：首个专为 OpenClaw 深度优化的"龙虾模型"（2026-03-16 新发布）

就在 GLM-5 发布一个月后，智谱于 2026 年 3 月 16 日发布了 GLM-5-Turbo——号称是首个从训练阶段就针对 OpenClaw 场景深度优化的基础模型。

基本规格

参数	GLM-5-Turbo
定位	OpenClaw / Agent 场景专用
上下文	200K
最大输出	128K tokens
定价	$0.96/M input，$3.20/M output
思考模式	✅
流式输出	✅
函数调用	✅
上下文缓存	✅
MCP	✅
状态	⚠️ 实验阶段，闭源（成果将集成到下一个开源模型）

四大强化方向

1. 工具调用（Tool Calling）："精准调用，不失败"——增强外部工具和各种 Skills 的调用稳定性，确保多步任务从对话到执行的平滑过渡

2. 指令跟随（Instruction Following）：增强对复杂、多层、长链指令的理解和分解能力，支持多 Agent 协作分工

3. 定时+持久任务（Scheduled & Persistent Tasks）：显著优化定时触发、持续执行、长时间运行任务的理解——对 OpenClaw 的 Cron 和 Heartbeat 功能至关重要

4. 高吞吐长链（High-Throughput Long Chains）：针对 Lobster 任务（高数据吞吐+长逻辑链），提升执行效率和响应稳定性

ZClawBench：OpenClaw 专用 Benchmark

智谱同时发布了 ZClawBench——专门为 OpenClaw Agent 场景设计的端到端评测基准。

基于对真实 OpenClaw 用例的分析，覆盖：环境搭建、软件开发、信息检索、数据分析、内容创建等任务类型。

关键发现：

OpenClaw 用户群已从早期开发者扩展到生产力用户、金融专业人员、运维工程师、内容创作者、研究分析师
Skills 使用率从 26% 飙升至 45%——模块化 Skill 生态正在成型
GLM-5-Turbo 在 OpenClaw 场景下显著优于 GLM-5，在多个关键任务类别中超过多个领先模型

与 GLM-5 的关系

维度	GLM-5	GLM-5-Turbo
定位	通用旗舰	OpenClaw 场景专用
架构	744B/40B MoE	未公开（可能相同基座+专项 SFT/RL）
开源	✅	❌ 闭源（实验阶段）
工具调用	强	更强（专项优化）
长程任务	强	更强（时间维度理解）
定价	GLM-5 API 定价	$0.96/$3.20 per M

"龙虾套餐"

智谱同时推出了基于 GLM-5-Turbo 的"龙虾套餐"，包含个人版和团队版——这是 AI 公司首次为单一 Agent 框架（OpenClaw）推出专属商业套餐。

> 这标志着一个趋势：AI 模型提供商开始围绕特定 Agent 框架做垂直优化，而不仅仅是做通用大模型。OpenClaw 的生态影响力正在从"热门开源项目"升级为"模型训练的目标场景"。

💡 与我们的关联

1. GLM-5-Turbo 可能是我们的最佳选择

我们是 OpenClaw 用户，GLM-5-Turbo 就是为我们设计的。工具调用稳定性、Cron 任务理解、长链执行——全是我们的核心场景。建议尽快试用。

2. 我们已经在用 GLM

OpenClaw 配置中有 GLM 频道（绑定 1472973204040716450）。切换到 GLM-5-Turbo 只需要改 model 参数。

3. 深度研究场景

场景	最佳选择
需要最精确的编码	Claude Opus
需要最便宜	DeepSeek V3.2
需要并行研究	Kimi K2.5 Agent Swarm
需要长程任务+搜索综合	GLM-5
OpenClaw Agent 场景	GLM-5-Turbo

4. 国产芯片部署路径

如果未来 NVIDIA 出口管制加剧，GLM-5 是唯一一个从第一天就适配七大国产芯片的前沿模型。这对国内用户有战略价值。

5. slime RL 框架

智谱开源的异步 RL 框架 slime 对任何想做 Agent RL 训练的团队都有参考价值。

📊 评分

维度	评分（/10）
技术创新	9.0 — DSA + 异步 RL + 国产芯片适配
模型能力	8.5 — 开源 #1，接近闭源前沿
开源程度	9.5 — 权重+代码+论文+RL框架全开
实用价值	8.5 — API 可用，多框架部署支持
与我们的关联	9.0 — GLM-5-Turbo 就是为 OpenClaw 用户设计的
综合	9.0

报告由深度研究助手自动生成 | 2026-03-16

来源: https://huggingface.co/zai-org/GLM-5

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

参数	GLM-5-Turbo
定位	OpenClaw / Agent 场景专用
上下文	200K
最大输出	128K tokens
定价	$0.96/M input，$3.20/M output
思考模式	✅
流式输出	✅
函数调用	✅
上下文缓存	✅
MCP	✅
状态	⚠️ 实验阶段，闭源（成果将集成到下一个开源模型）