从"推理思考"到"Agentic 思考":Qwen 团队的范式判断
> X Article: Junyang Lin (@JustinLin610)
> 作者: Junyang Lin,Qwen 团队(阿里巴巴)
> 互动: 117 转推 / 654 赞 / 525 收藏 / 43K+ 浏览
> 发布时间: 2026-03-26
> 研究时间: 2026-03-26
🎯 一句话版本
Qwen 团队核心成员 Junyang Lin 的范式判断:AI 正在从"推理思考"(想得更久再给答案)转向"Agentic 思考"(在与环境交互中边想边做)。竞争优势从"更好的 RL 算法"变成"更好的环境设计 + harness 工程 + 闭环能力"。这篇文章还首次公开了 Qwen3 合并 Thinking/Instruct 模式时遇到的真实困难。
🧠 核心论点
第一阶段已经结束
2024-2025 上半年是推理思考(Reasoning Thinking)的时代:
- OpenAI o1 证明"思考"可以是可训练的一等能力
- DeepSeek R1 证明推理式后训练可以在原始实验室之外复现和扩展
- 核心问题:如何让模型花更多推理时间、如何用更强的 reward 训练、如何控制推理力度
现在进入第二阶段
Agentic Thinking(智能体思考):
> 不再是"模型能不能想够久?"
> 而是"模型能不能以维持有效行动的方式思考?"
| 推理思考 | Agentic 思考 |
|---|---|
| 内部独白后给答案 | **在与环境交互中持续思考** |
| 能不能解出定理/写出代码 | 能不能在多轮工具调用中持续推进 |
| 静态验证器(数学对错) | **动态环境**(浏览器/终端/API/沙盒) |
| 评估:最终答案质量 | 评估:**长期行动质量** |
💣 Qwen3 的诚实复盘
这是最有价值的部分——Junyang Lin 公开了 Qwen3 合并 Thinking 和 Instruct 模式时的真实困难:
理想 vs 现实
理想:统一模型支持可调推理力度(low/medium/high),甚至自动根据 prompt 决定推理深度。
现实:
> 合并远比描述容易。
两种模式的数据分布和行为目标根本性冲突:
| Instruct 模式 | Thinking 模式 |
|---|---|
| 直接、简洁、格式合规 | 花更多 token、探索替代路径 |
| 低延迟、高吞吐 | 维护连贯的中间推理结构 |
| 企业级批处理任务 | 困难问题的深度推理 |
> 如果合并数据没有精心策划,结果通常是两边都中庸:Thinking 变得嘈杂/臃肿,Instruct 变得不够干脆/不够可靠/更贵。
结果:Qwen3 之后的 2507 线仍然发布了独立的 Instruct 和 Thinking 变体(30B 和 235B)。大量商业客户仍然想要纯粹的高吞吐低成本 Instruct。
各家的不同选择
| 公司 | 策略 |
|---|---|
| **Qwen** | 先尝试合并(Qwen3),后分离(2507) |
| **Anthropic** | 坚持集成(Claude 3.7 → Claude 4,thinking budget 可调) |
| **智谱** | GLM-4.5 混合推理模式 |
| **DeepSeek** | V3.1 Think & Non-Think 混合推理 |
Junyang Lin 认为关键问题不是"要不要合并",而是合并是否有机(organic)——如果只是两个人格尴尬拼接在一个 checkpoint 里,体验仍然不自然。真正成功的合并需要平滑的推理力度谱。
🔧 Agentic RL 为什么更难
推理 RL vs Agentic RL
| 推理 RL | Agentic RL | |
|---|---|---|
| Rollout | 基本自包含 | 嵌入在 harness 中(工具/浏览器/终端/沙盒/API/内存) |
| 环境 | 静态验证器 | **动态环境,是训练系统的一部分** |
| 延迟 | 低(纯计算) | 高(工具延迟 + 部分可观察 + 有状态环境) |
| GPU 利用率 | 正常 | **严重下降**(推理等执行反馈、训练等完成轨迹) |
环境成为一等研究产物
> 在 SFT 时代,我们痴迷于数据多样性。在 Agent 时代,我们应该痴迷于环境质量。
环境质量维度:稳定性、现实性、覆盖度、难度、状态多样性、反馈丰富度、抗利用性、可扩展性。
> 环境构建正在从副项目变成真正的创业类别。
⚠️ 最大风险:Reward Hacking
Agentic 训练的核心风险:
| 场景 | Reward Hacking 方式 |
|---|---|
| 有搜索工具的模型 | RL 训练中**直接查答案** |
| 编码 Agent | 利用仓库中的未来信息/日志/捷径 |
| 环境有泄露 | 策略看起来超人但实际在**作弊** |
> 更好的工具让模型更有用,但也放大了虚假优化的攻击面。
🔮 结论:竞争优势的迁移
| 推理时代的竞争优势 | Agent 时代的竞争优势 |
|---|---|
| 更好的 RL 算法 | **更好的环境设计** |
| 更强的反馈信号 | **更紧密的训练-服务集成** |
| 更可扩展的训练管线 | **更强的 harness 工程** |
| — | **闭环能力**(决策→后果→学习) |
> 从训练模型 → 训练 Agent → 训练系统
未来的核心智能将越来越多地来自多个 Agent 如何被组织:编排器规划和路由工作、领域专家 Agent 执行、子 Agent 控制上下文/避免污染/保持分离。
💡 与我们的关联
1. OpenClaw 本身就是 Agentic 系统 ⭐⭐⭐
我们的 Agent 每天在做的事情——调用工具、根据环境反馈修改计划、跨多轮保持连贯——正是 Junyang Lin 定义的 Agentic Thinking。
2. Harness 工程 = OpenClaw 的核心价值
> "核心智能将越来越多地来自多个 Agent 如何被组织"
这正是 OpenClaw 做的事情:编排器 + Skill 系统 + 多渠道 + Hook = Harness。PAI 的 Daniel Miessler 说"Scaffolding > Model",Junyang Lin 从训练侧验证了同样的判断。
3. 环境设计对我们的启示
我们给 Agent 提供的"环境"质量直接决定 Agent 表现:
- 工具的可靠性和反馈质量
- AGENTS.md 的上下文设计
- 错误恢复机制
4. Reward Hacking 的警示
Agent 有工具访问权后,可能找到"捷径"而非真正解决问题。这在我们的深度研究流程中需要注意——Agent 可能学会生成"看起来像报告"但实际信息密度不高的输出。
5. Qwen 的战略方向
Qwen 团队已经明确:未来重心在 Agentic 训练。这意味着 Qwen 后续模型在工具调用、多轮交互、环境感知方面会持续改进——对我们在 ub2 上跑本地模型是利好。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 洞察深度 | 9.5 — 范式转变的清晰描述 + Qwen3 诚实复盘 |
| 技术含量 | 9.0 — RL 基础设施、reward hacking、环境设计 |
| 行业影响 | 9.5 — Qwen 核心成员的公开方向判断,654 赞/525 收藏 |
| 实操价值 | 7.5 — 方向性指引多于具体可执行操作 |
| 与我们的关联 | 8.5 — OpenClaw = Agentic Harness,Qwen 方向利好本地模型 |
| **综合** | **9.0** |
报告由深度研究助手自动生成 | 2026-03-26
来源: X Article