author: Zhipu AI & Tsinghua University

source: https://arxiv.org/html/2602.15763v2

tags: [ai, llm, glm, zhipu, moe, agent, rl, open-source, chinese-ai]

rating: ⭐⭐⭐⭐⭐ (5/5)

GLM-5 — 从 Vibe Coding 到 Agentic Engineering

一句话版本

智谱 AI 联合清华大学的 744B 参数开源 MoE 模型，40B 活跃参数，28.5T tokens 训练，200K 上下文——LMArena 代码和文本双榜开源第一，首次有开源模型在 Artificial Analysis 智能指数拿到 50 分，性能比肩 Claude Opus 4.5 和 GPT-5.2。

基本信息

发布: 2026-02-11（论文 v2 发布于 2026-05-20）
组织: Zhipu AI（智谱 AI，现已更名为 Z.ai）& Tsinghua University
论文: GLM-5: from Vibe Coding to Agentic Engineering
代码/模型: github.com/zai-org/GLM-5
协议: MIT（开源权重）
API 定价: $0.11/百万输入 tokens（极低）
后续版本: GLM-5.1（2026-04-07），SWE-Bench Pro 58.4，登顶全球榜首

模型规模

指标	GLM-5	GLM-4.5（前代）	变化
总参数量	744B	355B	2.1x
激活参数量	40B	32B	1.25x
Expert 数	256	—	大幅增加
层数	80	—	减少以减少通信开销
训练 Tokens	28.5T	—	大幅扩展
上下文长度	200K	—	从 4K 逐步扩展

核心技术创新

1. 架构：DSA + MLA + MTP

DSA (DeepSeek Sparse Attention) — 大幅降低训练和推理成本，动态分配注意力资源
Multi-latent Attention (MLA) — 高效注意力变体
Multi-token Prediction with Parameter Sharing — 多 token 预测，参数共享
MoE 256 Experts — 80 层减少专家间通信开销

2. 训练管线


Pre-Training (27T tokens) → Mid-Training (1.5T) → Post-Training
  ↑ 优先代码和推理                ↑ 4K→200K 扩展     ↑ SFT → Reasoning RL 
                                                     → Agentic RL → General RL
                                                     → On-Policy Cross-Stage Distillation

Pre-Training: 27T tokens，优先代码和推理数据

Mid-Training: 1.5T tokens，从 4K 逐步扩展到 200K 上下文

Post-Training:

SFT → Reasoning RL → Agentic RL → General RL（顺序管线）
On-Policy Cross-Stage Distillation 防止灾难性遗忘

3. 异步强化学习基础设施

slime 框架 — 全新的异步 RL 架构：

解耦生成与训练：生成（rollout）和训练在不同 GPU 上异步进行，最大化利用率
Tail-Latency 优化：针对 RL rollout 的尾部延迟优化
Heartbeat-Driven Fault Tolerance：心跳驱动的容错机制

4. 异步 Agent RL 算法

GLM-5 的核心创新之一：

Server-based multi-task training：基于服务器的多任务训练设计
Token-in-Token-out vs. Text-in-Text-out：两种模式对比
Double-sided importance sampling for token clipping：双端重要性采样
DP-aware routing for acceleration：数据并行感知路由加速
Dropping off-policy and noisy samples：丢弃 off-policy 和噪声样本

5. Agent 环境扩展

环境类型	说明
SWE 环境	软件工程任务，代码修改/调试
终端环境	从种子数据和网页语料合成
搜索任务	浏览器搜索和检索
幻灯片生成	拒绝采样 + Masking refinement

6. 国产芯片适配

GLM-5 是首个从第一天起全栈适配国产 GPU 生态的大模型：

芯片平台	优化内容
华为昇腾 (Ascend)	W4A8 混合精度量化
摩尔线程 (Moore Threads)	高性能融合 kernel
海光 (Hygon)
寒武纪 (Cambricon)
昆仑芯 (Kunlunxin)
MetaX
燧原 (Enflame)

7. 推理优化

Mixed-Precision W4A8 quantization：权重 4-bit + 激活 8-bit
High-Performance fusion kernels：高性能融合 kernel
Specialized inference engine optimizations

Benchmark 结果

核心基准（平均 20% 提升）

基准	GLM-5	vs Claude Opus 4.5	vs GPT-5.2
8 项 ARC 基准平均	~20% 提升 vs GLM-4.7	可比	可比
SWE-bench Verified	77.8%	—	—
Humanity's Last Exam	SOTA	—	—
Terminal-Bench 2.0	SOTA	—	—
BrowseComp	SOTA	—	—
MCP-Atlas	SOTA	—	—
τ²-Bench	SOTA	—	—
Vending-Bench 2	$4,432 (开源 #1)	接近	—

智能指数

Artificial Analysis Intelligence Index v4.0: 50 分
首个开源模型达到 50 分（GLM-4.7 为 42 分，+8）
涵盖 GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、GPQA Diamond 等 10 项评估

LMArena

Text Arena 和 Code Arena 双榜开源第一

总体媲美 Claude Opus 4.5 和 Gemini 3 Pro

GLM-5.1 更进一步（2026-04-07）

SWE-Bench Pro: 58.4（全球第一，超 GPT-5.4 的 57.7 和 Claude Opus 4.6 的 57.3）
API 成本仅 $1.00/M 输入，$3.20/M 输出
编码评测 45.3 vs Claude Opus 4.6 的 47.9（94.6%）

与竞品对比

特性	GLM-5	DeepSeek-V3.2	Claude Opus 4.5	GPT-5.2
总参数	744B	—	闭源	闭源
激活参数	40B	—	—	—
上下文	200K	—	—	—
协议	MIT (开源)	MIT (开源)	闭源	闭源
国产芯片适配	✅ 7 种	❌	❌	❌
训练 Tokens	28.5T	—	—	—
API 价格	$0.11/M	—	贵	贵
SWE 能力	77.8% (Ver) / 58.4 (Pro)	—	可比	可比

深度分析

惊艳点

1. 开源 MIT + 极低价格 — $0.11/M 输入 tokens 在性能比肩 GPT-5.2 和 Claude Opus 4.5 的情况下极其惊人

2. 国产芯片全栈适配 — 7 种国产 GPU 平台从底层 kernel 到上层推理框架全面适配，这在中国 AI 领域是里程碑

3. 异步 Agent RL — 解耦生成和训练，让 Agent 从长周期交互中持续学习，是通往 autonomous agent 的关键技术

4. On-Policy Cross-Stage Distillation — 防止灾难性遗忘的创新方案

5. GLM-5.1 持续进化 — SWE-Bench Pro 登顶全球，证明 GLM 系列持续迭代能力

6. 论文完整透明 — 训练管线、架构选择、RL 算法、芯片适配全部公开

不足/风险

1. 算力需求巨大 — 744B 参数，即使 MIT 开源，部署成本仍然极高

2. 依赖 DeepSeek 技术 — DSA 来自 DeepSeek，MLA 也非原创，创新主要在训练和 RL 管线

3. GLM-5.1 进步略小 — 从 GLM-5 到 5.1 的跃升不如从 4.7 到 5 的大

4. 国际认可度有限 — 虽然 LMArena 表现好，但西方开发者社区对 Zhipu 的认知度不及 DeepSeek

5. 只支持中文/英文 — 多语言能力测试覆盖有限

对我们项目的意义

GLM-5 是目前性价比最高的 Agent 模型候选之一
异步 RL 训练范式值得关注——如果未来 OpenClaw 引入模型微调能力，这可能是路线图
国产芯片适配意味着可以在华为昇腾等平台上私有化部署
与 DeepSeek 形成中国开源模型双雄格局

评分：⭐⭐⭐⭐⭐ (5/5)

技术深度: ⭐⭐⭐⭐⭐ — 从架构到 RL 到芯片适配，全方位创新
实用性: ⭐⭐⭐⭐⭐ — 开源 MIT、极低价、国产芯片适配
性能: ⭐⭐⭐⭐ — 比肩 GPT-5.2/Claude Opus 4.5，但未全面超越
开放性: ⭐⭐⭐⭐⭐ — MIT 协议，完整论文，权重开源
生态影响: ⭐⭐⭐⭐ — 中国开源模型新标杆，国际影响力待观察

参考资料

GLM-5 论文 (arXiv:2602.15763)
GLM-5 GitHub
GLM-5 官网 (chat.z.ai)
GLM-5.1 发布 — SWE-Bench Pro 全球第一
Artificial Analysis Intelligence Index v4.0
LMArena