从"推理思考"到"Agentic 思考"：Qwen 团队的范式判断

> X Article: Junyang Lin (@JustinLin610)

> 作者: Junyang Lin，Qwen 团队（阿里巴巴）

> 互动: 117 转推 / 654 赞 / 525 收藏 / 43K+ 浏览

> 发布时间: 2026-03-26

> 研究时间: 2026-03-26

🎯 一句话版本

Qwen 团队核心成员 Junyang Lin 的范式判断：AI 正在从"推理思考"（想得更久再给答案）转向"Agentic 思考"（在与环境交互中边想边做）。竞争优势从"更好的 RL 算法"变成"更好的环境设计 + harness 工程 + 闭环能力"。这篇文章还首次公开了 Qwen3 合并 Thinking/Instruct 模式时遇到的真实困难。

🧠 核心论点

第一阶段已经结束

2024-2025 上半年是推理思考（Reasoning Thinking）的时代：

OpenAI o1 证明"思考"可以是可训练的一等能力
DeepSeek R1 证明推理式后训练可以在原始实验室之外复现和扩展
核心问题：如何让模型花更多推理时间、如何用更强的 reward 训练、如何控制推理力度

现在进入第二阶段

Agentic Thinking（智能体思考）：

> 不再是"模型能不能想够久？"

> 而是"模型能不能以维持有效行动的方式思考？"

推理思考	Agentic 思考
内部独白后给答案	在与环境交互中持续思考
能不能解出定理/写出代码	能不能在多轮工具调用中持续推进
静态验证器（数学对错）	动态环境（浏览器/终端/API/沙盒）
评估：最终答案质量	评估：长期行动质量

💣 Qwen3 的诚实复盘

这是最有价值的部分——Junyang Lin 公开了 Qwen3 合并 Thinking 和 Instruct 模式时的真实困难：

理想 vs 现实

理想：统一模型支持可调推理力度（low/medium/high），甚至自动根据 prompt 决定推理深度。

现实：

> 合并远比描述容易。

两种模式的数据分布和行为目标根本性冲突：

Instruct 模式	Thinking 模式
直接、简洁、格式合规	花更多 token、探索替代路径
低延迟、高吞吐	维护连贯的中间推理结构
企业级批处理任务	困难问题的深度推理

> 如果合并数据没有精心策划，结果通常是两边都中庸：Thinking 变得嘈杂/臃肿，Instruct 变得不够干脆/不够可靠/更贵。

结果：Qwen3 之后的 2507 线仍然发布了独立的 Instruct 和 Thinking 变体（30B 和 235B）。大量商业客户仍然想要纯粹的高吞吐低成本 Instruct。

各家的不同选择

公司	策略
Qwen	先尝试合并（Qwen3），后分离（2507）
Anthropic	坚持集成（Claude 3.7 → Claude 4，thinking budget 可调）
智谱	GLM-4.5 混合推理模式
DeepSeek	V3.1 Think & Non-Think 混合推理

Junyang Lin 认为关键问题不是"要不要合并"，而是合并是否有机（organic）——如果只是两个人格尴尬拼接在一个 checkpoint 里，体验仍然不自然。真正成功的合并需要平滑的推理力度谱。

🔧 Agentic RL 为什么更难

推理 RL vs Agentic RL

	推理 RL	Agentic RL
Rollout	基本自包含	嵌入在 harness 中（工具/浏览器/终端/沙盒/API/内存）
环境	静态验证器	动态环境，是训练系统的一部分
延迟	低（纯计算）	高（工具延迟 + 部分可观察 + 有状态环境）
GPU 利用率	正常	严重下降（推理等执行反馈、训练等完成轨迹）

环境成为一等研究产物

> 在 SFT 时代，我们痴迷于数据多样性。在 Agent 时代，我们应该痴迷于环境质量。

环境质量维度：稳定性、现实性、覆盖度、难度、状态多样性、反馈丰富度、抗利用性、可扩展性。

> 环境构建正在从副项目变成真正的创业类别。

⚠️ 最大风险：Reward Hacking

Agentic 训练的核心风险：

场景	Reward Hacking 方式
有搜索工具的模型	RL 训练中直接查答案
编码 Agent	利用仓库中的未来信息/日志/捷径
环境有泄露	策略看起来超人但实际在作弊

> 更好的工具让模型更有用，但也放大了虚假优化的攻击面。

🔮 结论：竞争优势的迁移

推理时代的竞争优势	Agent 时代的竞争优势
更好的 RL 算法	更好的环境设计
更强的反馈信号	更紧密的训练-服务集成
更可扩展的训练管线	更强的 harness 工程
—	闭环能力（决策→后果→学习）

> 从训练模型 → 训练 Agent → 训练系统

未来的核心智能将越来越多地来自多个 Agent 如何被组织：编排器规划和路由工作、领域专家 Agent 执行、子 Agent 控制上下文/避免污染/保持分离。

💡 与我们的关联

1. OpenClaw 本身就是 Agentic 系统 ⭐⭐⭐

我们的 Agent 每天在做的事情——调用工具、根据环境反馈修改计划、跨多轮保持连贯——正是 Junyang Lin 定义的 Agentic Thinking。

2. Harness 工程 = OpenClaw 的核心价值

> "核心智能将越来越多地来自多个 Agent 如何被组织"

这正是 OpenClaw 做的事情：编排器 + Skill 系统 + 多渠道 + Hook = Harness。PAI 的 Daniel Miessler 说"Scaffolding > Model"，Junyang Lin 从训练侧验证了同样的判断。

3. 环境设计对我们的启示

我们给 Agent 提供的"环境"质量直接决定 Agent 表现：

工具的可靠性和反馈质量
AGENTS.md 的上下文设计
错误恢复机制

4. Reward Hacking 的警示

Agent 有工具访问权后，可能找到"捷径"而非真正解决问题。这在我们的深度研究流程中需要注意——Agent 可能学会生成"看起来像报告"但实际信息密度不高的输出。

5. Qwen 的战略方向

Qwen 团队已经明确：未来重心在 Agentic 训练。这意味着 Qwen 后续模型在工具调用、多轮交互、环境感知方面会持续改进——对我们在 ub2 上跑本地模型是利好。

📊 评分

维度	评分（/10）
洞察深度	9.5 — 范式转变的清晰描述 + Qwen3 诚实复盘
技术含量	9.0 — RL 基础设施、reward hacking、环境设计
行业影响	9.5 — Qwen 核心成员的公开方向判断，654 赞/525 收藏
实操价值	7.5 — 方向性指引多于具体可执行操作
与我们的关联	8.5 — OpenClaw = Agentic Harness，Qwen 方向利好本地模型
综合	9.0

报告由深度研究助手自动生成 | 2026-03-26

来源: X Article

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）