SkillOpt: 微软让 Agent 技能像深度学习一样可训练

来源: SkillOpt: Executive Strategy for Self-Evolving Agent Skills (Microsoft Research, 2026-05)
项目页: microsoft.github.io/SkillOpt
代码: github.com/microsoft/SkillOpt (MIT)
分析日期: 2026-05-27
评分: ⭐⭐⭐⭐⭐ (对 Agent 技能系统开发有直接实用价值)

一句话版本

SkillOpt 是把 Agent 的"技能"当成一个可训练的文件来优化——像训练神经网络一样控制学习率、验证集、负反馈，但操作的是纯文本技能文档，不需要改模型权重。

当前 Agent 技能的问题：

SkillOpt 的核心洞察：技能文档 = 冻结 Agent 的外部状态。应该用和权重优化相同的纪律来训练技能——有证据、有步骤、有验证、有负反馈。


Rollout (采样) → Reflection (分析) → Bounded Edit (有界编辑) → Validation Gate (验证门) → Export (导出)

每个组件对应深度学习概念：

深度学习	SkillOpt
Forward pass	Rollout batch 采样轨迹
Backward pass	Minibatch reflection 分析成功/失败
Learning rate	文本编辑预算（cosine schedule）
Validation set	Held-out selection 分数
Negative feedback	Rejected-edit buffer
Momentum	Epoch-wise slow/meta update

1. Bounded Text Updates：编辑预算限制每次修改数量。Cosine schedule 从大编辑逐渐衰减到微调。防止"一次重写毁掉所有有用规则"。

2. Validation Gate：每一版新 skill 都必须通过 held-out 验证集的分数提升才能接受。把自反思变成"提出-测试"优化而非无条件自编辑。

3. Rejected-Edit Buffer：失败的编辑不是浪费——它们变成了负反馈，告诉 optimizer "这条路走不通"。

4. Slow/Meta Update：跨 epoch 的稳定编辑方向，类似 momentum term。

6 个 benchmark × 7 个目标模型 × 3 个 execution harness 的全部 52 个 cells 都是 best or tied-best。

Benchmark	无技能	SkillOpt	提升
SpreadsheetBench	41.8	80.7	+38.9
OfficeQA	33.1	72.1	+39.0
LiveMathematicianBench	37.6	66.9	+29.3
SearchQA	77.7	87.3	+9.6
DocVQA	78.8	91.2	+12.4
ALFWorld	83.6	95.5	+11.9
平均	58.8	82.3	+23.5

迁移类型	效果
跨模型	SpreadsheetBench skill 从 GPT-5.4 迁移到所有小模型都有提升
跨 Harness	Codex 训练的 skill → Claude Code: +59.7 points
跨 Benchmark	OlympiadBench skill → Omni-MATH: 正增益

一个 skill 被训练一次后，可以像模型权重一样复用。

Jay 一直在构建和迭代 Agent 技能系统（Daily-Review、skill-creator、各 Agent 的 skills）。SkillOpt 的架构设计直接解决了当前的问题：

1. 你的 AGENTS.md / SOUL.md / TOOLS.md 本质上就是 skill artifacts。SkillOpt 的思路是：这些文件应该被"训练"而非"手工维护"。

2. OpenClaw 正从固定 prompt 向灵活技能系统演化。SkillOpt 的技能可迁移、可审计、可部署的特性正好匹配。

3. 代码已开源（MIT），可以直接参考实现。Optimizer 模型用 GPT-5.5，但设计上支持任何 LM（包括 Qwen）。

4. 对比你已了解的 Trace2Skill、EvoSkill：SkillOpt 是更系统化的方案，有学习率、验证、负反馈等"训练"组件。

维度	评分	说明
技术深度	⭐⭐⭐⭐⭐	首次将训练纪律引入技能优化
实用性	⭐⭐⭐⭐⭐	开源 + MIT + 支持多种模型/harness
创新性	⭐⭐⭐⭐⭐	文本-learning rate、validation gate、rejected buffer 都是新概念
实验严谨度	⭐⭐⭐⭐⭐	52/52 cells 全面评估 + 迁移实验
与 Jay 项目关联	⭐⭐⭐⭐⭐	直接相关于 Agent 技能系统建设