author: Zhipu AI & Tsinghua University
source: https://arxiv.org/html/2602.15763v2
tags: [ai, llm, glm, zhipu, moe, agent, rl, open-source, chinese-ai]
rating: ⭐⭐⭐⭐⭐ (5/5)
GLM-5 — 从 Vibe Coding 到 Agentic Engineering
一句话版本
智谱 AI 联合清华大学的 744B 参数开源 MoE 模型,40B 活跃参数,28.5T tokens 训练,200K 上下文——LMArena 代码和文本双榜开源第一,首次有开源模型在 Artificial Analysis 智能指数拿到 50 分,性能比肩 Claude Opus 4.5 和 GPT-5.2。
基本信息
- 发布: 2026-02-11(论文 v2 发布于 2026-05-20)
- 组织: Zhipu AI(智谱 AI,现已更名为 Z.ai)& Tsinghua University
- 论文: GLM-5: from Vibe Coding to Agentic Engineering
- 代码/模型: github.com/zai-org/GLM-5
- 协议: MIT(开源权重)
- API 定价: $0.11/百万输入 tokens(极低)
- 后续版本: GLM-5.1(2026-04-07),SWE-Bench Pro 58.4,登顶全球榜首
模型规模
| 指标 | GLM-5 | GLM-4.5(前代) | 变化 |
|---|---|---|---|
| 总参数量 | 744B | 355B | 2.1x |
| 激活参数量 | 40B | 32B | 1.25x |
| Expert 数 | 256 | — | 大幅增加 |
| 层数 | 80 | — | 减少以减少通信开销 |
| 训练 Tokens | 28.5T | — | 大幅扩展 |
| 上下文长度 | 200K | — | 从 4K 逐步扩展 |
核心技术创新
1. 架构:DSA + MLA + MTP
- DSA (DeepSeek Sparse Attention) — 大幅降低训练和推理成本,动态分配注意力资源
- Multi-latent Attention (MLA) — 高效注意力变体
- Multi-token Prediction with Parameter Sharing — 多 token 预测,参数共享
- MoE 256 Experts — 80 层减少专家间通信开销
2. 训练管线
Pre-Training (27T tokens) → Mid-Training (1.5T) → Post-Training
↑ 优先代码和推理 ↑ 4K→200K 扩展 ↑ SFT → Reasoning RL
→ Agentic RL → General RL
→ On-Policy Cross-Stage Distillation
Pre-Training: 27T tokens,优先代码和推理数据
Mid-Training: 1.5T tokens,从 4K 逐步扩展到 200K 上下文
Post-Training:
- SFT → Reasoning RL → Agentic RL → General RL(顺序管线)
- On-Policy Cross-Stage Distillation 防止灾难性遗忘
3. 异步强化学习基础设施
slime 框架 — 全新的异步 RL 架构:
- 解耦生成与训练:生成(rollout)和训练在不同 GPU 上异步进行,最大化利用率
- Tail-Latency 优化:针对 RL rollout 的尾部延迟优化
- Heartbeat-Driven Fault Tolerance:心跳驱动的容错机制
4. 异步 Agent RL 算法
GLM-5 的核心创新之一:
- Server-based multi-task training:基于服务器的多任务训练设计
- Token-in-Token-out vs. Text-in-Text-out:两种模式对比
- Double-sided importance sampling for token clipping:双端重要性采样
- DP-aware routing for acceleration:数据并行感知路由加速
- Dropping off-policy and noisy samples:丢弃 off-policy 和噪声样本
5. Agent 环境扩展
| 环境类型 | 说明 |
|---|---|
| **SWE 环境** | 软件工程任务,代码修改/调试 |
| **终端环境** | 从种子数据和网页语料合成 |
| **搜索任务** | 浏览器搜索和检索 |
| **幻灯片生成** | 拒绝采样 + Masking refinement |
6. 国产芯片适配
GLM-5 是首个从第一天起全栈适配国产 GPU 生态的大模型:
| 芯片平台 | 优化内容 |
|---|---|
| 华为昇腾 (Ascend) | W4A8 混合精度量化 |
| 摩尔线程 (Moore Threads) | 高性能融合 kernel |
| 海光 (Hygon) | |
| 寒武纪 (Cambricon) | |
| 昆仑芯 (Kunlunxin) | |
| MetaX | |
| 燧原 (Enflame) |
7. 推理优化
- Mixed-Precision W4A8 quantization:权重 4-bit + 激活 8-bit
- High-Performance fusion kernels:高性能融合 kernel
- Specialized inference engine optimizations
Benchmark 结果
核心基准(平均 20% 提升)
| 基准 | GLM-5 | vs Claude Opus 4.5 | vs GPT-5.2 |
|---|---|---|---|
| 8 项 ARC 基准平均 | ~20% 提升 vs GLM-4.7 | 可比 | 可比 |
| SWE-bench Verified | 77.8% | — | — |
| Humanity's Last Exam | SOTA | — | — |
| Terminal-Bench 2.0 | SOTA | — | — |
| BrowseComp | SOTA | — | — |
| MCP-Atlas | SOTA | — | — |
| τ²-Bench | SOTA | — | — |
| Vending-Bench 2 | $4,432 (开源 #1) | 接近 | — |
智能指数
- Artificial Analysis Intelligence Index v4.0: 50 分
- 首个开源模型达到 50 分(GLM-4.7 为 42 分,+8)
- 涵盖 GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、GPQA Diamond 等 10 项评估
LMArena
Text Arena 和 Code Arena 双榜开源第一
总体媲美 Claude Opus 4.5 和 Gemini 3 Pro
GLM-5.1 更进一步(2026-04-07)
- SWE-Bench Pro: 58.4(全球第一,超 GPT-5.4 的 57.7 和 Claude Opus 4.6 的 57.3)
- API 成本仅 $1.00/M 输入,$3.20/M 输出
- 编码评测 45.3 vs Claude Opus 4.6 的 47.9(94.6%)
与竞品对比
| 特性 | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | GPT-5.2 |
|---|---|---|---|---|
| 总参数 | 744B | — | 闭源 | 闭源 |
| 激活参数 | 40B | — | — | — |
| 上下文 | 200K | — | — | — |
| 协议 | MIT (开源) | MIT (开源) | 闭源 | 闭源 |
| 国产芯片适配 | ✅ 7 种 | ❌ | ❌ | ❌ |
| 训练 Tokens | 28.5T | — | — | — |
| API 价格 | $0.11/M | — | 贵 | 贵 |
| SWE 能力 | 77.8% (Ver) / 58.4 (Pro) | — | 可比 | 可比 |
深度分析
惊艳点
1. 开源 MIT + 极低价格 — $0.11/M 输入 tokens 在性能比肩 GPT-5.2 和 Claude Opus 4.5 的情况下极其惊人
2. 国产芯片全栈适配 — 7 种国产 GPU 平台从底层 kernel 到上层推理框架全面适配,这在中国 AI 领域是里程碑
3. 异步 Agent RL — 解耦生成和训练,让 Agent 从长周期交互中持续学习,是通往 autonomous agent 的关键技术
4. On-Policy Cross-Stage Distillation — 防止灾难性遗忘的创新方案
5. GLM-5.1 持续进化 — SWE-Bench Pro 登顶全球,证明 GLM 系列持续迭代能力
6. 论文完整透明 — 训练管线、架构选择、RL 算法、芯片适配全部公开
不足/风险
1. 算力需求巨大 — 744B 参数,即使 MIT 开源,部署成本仍然极高
2. 依赖 DeepSeek 技术 — DSA 来自 DeepSeek,MLA 也非原创,创新主要在训练和 RL 管线
3. GLM-5.1 进步略小 — 从 GLM-5 到 5.1 的跃升不如从 4.7 到 5 的大
4. 国际认可度有限 — 虽然 LMArena 表现好,但西方开发者社区对 Zhipu 的认知度不及 DeepSeek
5. 只支持中文/英文 — 多语言能力测试覆盖有限
对我们项目的意义
- GLM-5 是目前性价比最高的 Agent 模型候选之一
- 异步 RL 训练范式值得关注——如果未来 OpenClaw 引入模型微调能力,这可能是路线图
- 国产芯片适配意味着可以在华为昇腾等平台上私有化部署
- 与 DeepSeek 形成中国开源模型双雄格局
评分:⭐⭐⭐⭐⭐ (5/5)
- 技术深度: ⭐⭐⭐⭐⭐ — 从架构到 RL 到芯片适配,全方位创新
- 实用性: ⭐⭐⭐⭐⭐ — 开源 MIT、极低价、国产芯片适配
- 性能: ⭐⭐⭐⭐ — 比肩 GPT-5.2/Claude Opus 4.5,但未全面超越
- 开放性: ⭐⭐⭐⭐⭐ — MIT 协议,完整论文,权重开源
- 生态影响: ⭐⭐⭐⭐ — 中国开源模型新标杆,国际影响力待观察