author: Zhipu AI & Tsinghua University

source: https://arxiv.org/html/2602.15763v2

tags: [ai, llm, glm, zhipu, moe, agent, rl, open-source, chinese-ai]

rating: ⭐⭐⭐⭐⭐ (5/5)

GLM-5 — 从 Vibe Coding 到 Agentic Engineering

一句话版本

智谱 AI 联合清华大学的 744B 参数开源 MoE 模型,40B 活跃参数,28.5T tokens 训练,200K 上下文——LMArena 代码和文本双榜开源第一,首次有开源模型在 Artificial Analysis 智能指数拿到 50 分,性能比肩 Claude Opus 4.5 和 GPT-5.2。

基本信息

模型规模

指标GLM-5GLM-4.5(前代)变化
总参数量744B355B2.1x
激活参数量40B32B1.25x
Expert 数256大幅增加
层数80减少以减少通信开销
训练 Tokens28.5T大幅扩展
上下文长度200K从 4K 逐步扩展

核心技术创新

1. 架构:DSA + MLA + MTP

2. 训练管线


Pre-Training (27T tokens) → Mid-Training (1.5T) → Post-Training
  ↑ 优先代码和推理                ↑ 4K→200K 扩展     ↑ SFT → Reasoning RL 
                                                     → Agentic RL → General RL
                                                     → On-Policy Cross-Stage Distillation

Pre-Training: 27T tokens,优先代码和推理数据

Mid-Training: 1.5T tokens,从 4K 逐步扩展到 200K 上下文

Post-Training:

3. 异步强化学习基础设施

slime 框架 — 全新的异步 RL 架构:

4. 异步 Agent RL 算法

GLM-5 的核心创新之一:

5. Agent 环境扩展

环境类型说明
**SWE 环境**软件工程任务,代码修改/调试
**终端环境**从种子数据和网页语料合成
**搜索任务**浏览器搜索和检索
**幻灯片生成**拒绝采样 + Masking refinement

6. 国产芯片适配

GLM-5 是首个从第一天起全栈适配国产 GPU 生态的大模型:

芯片平台优化内容
华为昇腾 (Ascend)W4A8 混合精度量化
摩尔线程 (Moore Threads)高性能融合 kernel
海光 (Hygon)
寒武纪 (Cambricon)
昆仑芯 (Kunlunxin)
MetaX
燧原 (Enflame)

7. 推理优化

Benchmark 结果

核心基准(平均 20% 提升)

基准GLM-5vs Claude Opus 4.5vs GPT-5.2
8 项 ARC 基准平均~20% 提升 vs GLM-4.7可比可比
SWE-bench Verified77.8%
Humanity's Last ExamSOTA
Terminal-Bench 2.0SOTA
BrowseCompSOTA
MCP-AtlasSOTA
τ²-BenchSOTA
Vending-Bench 2$4,432 (开源 #1)接近

智能指数

LMArena

Text Arena 和 Code Arena 双榜开源第一

总体媲美 Claude Opus 4.5 和 Gemini 3 Pro

GLM-5.1 更进一步(2026-04-07)

与竞品对比

特性GLM-5DeepSeek-V3.2Claude Opus 4.5GPT-5.2
总参数744B闭源闭源
激活参数40B
上下文200K
协议MIT (开源)MIT (开源)闭源闭源
国产芯片适配✅ 7 种
训练 Tokens28.5T
API 价格$0.11/M
SWE 能力77.8% (Ver) / 58.4 (Pro)可比可比

深度分析

惊艳点

1. 开源 MIT + 极低价格 — $0.11/M 输入 tokens 在性能比肩 GPT-5.2 和 Claude Opus 4.5 的情况下极其惊人

2. 国产芯片全栈适配 — 7 种国产 GPU 平台从底层 kernel 到上层推理框架全面适配,这在中国 AI 领域是里程碑

3. 异步 Agent RL — 解耦生成和训练,让 Agent 从长周期交互中持续学习,是通往 autonomous agent 的关键技术

4. On-Policy Cross-Stage Distillation — 防止灾难性遗忘的创新方案

5. GLM-5.1 持续进化 — SWE-Bench Pro 登顶全球,证明 GLM 系列持续迭代能力

6. 论文完整透明 — 训练管线、架构选择、RL 算法、芯片适配全部公开

不足/风险

1. 算力需求巨大 — 744B 参数,即使 MIT 开源,部署成本仍然极高

2. 依赖 DeepSeek 技术 — DSA 来自 DeepSeek,MLA 也非原创,创新主要在训练和 RL 管线

3. GLM-5.1 进步略小 — 从 GLM-5 到 5.1 的跃升不如从 4.7 到 5 的大

4. 国际认可度有限 — 虽然 LMArena 表现好,但西方开发者社区对 Zhipu 的认知度不及 DeepSeek

5. 只支持中文/英文 — 多语言能力测试覆盖有限

对我们项目的意义

评分:⭐⭐⭐⭐⭐ (5/5)

参考资料