SkillOpt: 微软让 Agent 技能像深度学习一样可训练
- 来源: SkillOpt: Executive Strategy for Self-Evolving Agent Skills (Microsoft Research, 2026-05)
- 项目页: microsoft.github.io/SkillOpt
- 代码: github.com/microsoft/SkillOpt (MIT)
- 分析日期: 2026-05-27
- 评分: ⭐⭐⭐⭐⭐ (对 Agent 技能系统开发有直接实用价值)
一句话版本
SkillOpt 是把 Agent 的"技能"当成一个可训练的文件来优化——像训练神经网络一样控制学习率、验证集、负反馈,但操作的是纯文本技能文档,不需要改模型权重。
为什么重要
当前 Agent 技能的问题:
- 手工编写的技能脆弱且不可扩展
- 一次性生成的技能没有迭代保证
- 无约束的自修订只会越改越差(没有验证门控)
SkillOpt 的核心洞察:技能文档 = 冻结 Agent 的外部状态。应该用和权重优化相同的纪律来训练技能——有证据、有步骤、有验证、有负反馈。
训练流程
Rollout (采样) → Reflection (分析) → Bounded Edit (有界编辑) → Validation Gate (验证门) → Export (导出)
每个组件对应深度学习概念:
| 深度学习 | SkillOpt |
|---|---|
| Forward pass | Rollout batch 采样轨迹 |
| Backward pass | Minibatch reflection 分析成功/失败 |
| Learning rate | 文本编辑预算(cosine schedule) |
| Validation set | Held-out selection 分数 |
| Negative feedback | Rejected-edit buffer |
| Momentum | Epoch-wise slow/meta update |
关键技术点
1. Bounded Text Updates:编辑预算限制每次修改数量。Cosine schedule 从大编辑逐渐衰减到微调。防止"一次重写毁掉所有有用规则"。
2. Validation Gate:每一版新 skill 都必须通过 held-out 验证集的分数提升才能接受。把自反思变成"提出-测试"优化而非无条件自编辑。
3. Rejected-Edit Buffer:失败的编辑不是浪费——它们变成了负反馈,告诉 optimizer "这条路走不通"。
4. Slow/Meta Update:跨 epoch 的稳定编辑方向,类似 momentum term。
结果:52/52 全面碾压
6 个 benchmark × 7 个目标模型 × 3 个 execution harness 的全部 52 个 cells 都是 best or tied-best。
GPT-5.5 直接对话模式
| Benchmark | 无技能 | SkillOpt | 提升 |
|---|---|---|---|
| SpreadsheetBench | 41.8 | **80.7** | +38.9 |
| OfficeQA | 33.1 | **72.1** | +39.0 |
| LiveMathematicianBench | 37.6 | **66.9** | +29.3 |
| SearchQA | 77.7 | **87.3** | +9.6 |
| DocVQA | 78.8 | **91.2** | +12.4 |
| ALFWorld | 83.6 | **95.5** | +11.9 |
| **平均** | 58.8 | **82.3** | **+23.5** |
Agentic Harness 模式 (GPT-5.5)
- Codex 内:无技能 → SkillOpt = +24.8(vs EvoSkill +14.0)
- Claude Code 内:无技能 → SkillOpt = +19.1(vs EvoSkill +3.2)
小模型也有效
- GPT-5.4-nano: +24.9 平均提升(DocVQA 从 26.8 → 76.2,+49.4!)
- Qwen3.5-4B: +19.2(ALFWorld 从 14.1 → 64.8,+50.7!)
迁移实验
| 迁移类型 | 效果 |
|---|---|
| 跨模型 | SpreadsheetBench skill 从 GPT-5.4 迁移到所有小模型都有提升 |
| 跨 Harness | Codex 训练的 skill → Claude Code: **+59.7 points** |
| 跨 Benchmark | OlympiadBench skill → Omni-MATH: 正增益 |
一个 skill 被训练一次后,可以像模型权重一样复用。
与我们的关联
Jay 一直在构建和迭代 Agent 技能系统(Daily-Review、skill-creator、各 Agent 的 skills)。SkillOpt 的架构设计直接解决了当前的问题:
1. 你的 AGENTS.md / SOUL.md / TOOLS.md 本质上就是 skill artifacts。SkillOpt 的思路是:这些文件应该被"训练"而非"手工维护"。
2. OpenClaw 正从固定 prompt 向灵活技能系统演化。SkillOpt 的技能可迁移、可审计、可部署的特性正好匹配。
3. 代码已开源(MIT),可以直接参考实现。Optimizer 模型用 GPT-5.5,但设计上支持任何 LM(包括 Qwen)。
4. 对比你已了解的 Trace2Skill、EvoSkill:SkillOpt 是更系统化的方案,有学习率、验证、负反馈等"训练"组件。
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 技术深度 | ⭐⭐⭐⭐⭐ | 首次将训练纪律引入技能优化 |
| 实用性 | ⭐⭐⭐⭐⭐ | 开源 + MIT + 支持多种模型/harness |
| 创新性 | ⭐⭐⭐⭐⭐ | 文本-learning rate、validation gate、rejected buffer 都是新概念 |
| 实验严谨度 | ⭐⭐⭐⭐⭐ | 52/52 cells 全面评估 + 迁移实验 |
| 与 Jay 项目关联 | ⭐⭐⭐⭐⭐ | 直接相关于 Agent 技能系统建设 |