SkillOpt: 微软让 Agent 技能像深度学习一样可训练

一句话版本

SkillOpt 是把 Agent 的"技能"当成一个可训练的文件来优化——像训练神经网络一样控制学习率、验证集、负反馈,但操作的是纯文本技能文档,不需要改模型权重。

为什么重要

当前 Agent 技能的问题:

SkillOpt 的核心洞察:技能文档 = 冻结 Agent 的外部状态。应该用和权重优化相同的纪律来训练技能——有证据、有步骤、有验证、有负反馈。

训练流程


Rollout (采样) → Reflection (分析) → Bounded Edit (有界编辑) → Validation Gate (验证门) → Export (导出)

每个组件对应深度学习概念:

深度学习SkillOpt
Forward passRollout batch 采样轨迹
Backward passMinibatch reflection 分析成功/失败
Learning rate文本编辑预算(cosine schedule)
Validation setHeld-out selection 分数
Negative feedbackRejected-edit buffer
MomentumEpoch-wise slow/meta update

关键技术点

1. Bounded Text Updates:编辑预算限制每次修改数量。Cosine schedule 从大编辑逐渐衰减到微调。防止"一次重写毁掉所有有用规则"。

2. Validation Gate:每一版新 skill 都必须通过 held-out 验证集的分数提升才能接受。把自反思变成"提出-测试"优化而非无条件自编辑。

3. Rejected-Edit Buffer:失败的编辑不是浪费——它们变成了负反馈,告诉 optimizer "这条路走不通"。

4. Slow/Meta Update:跨 epoch 的稳定编辑方向,类似 momentum term。

结果:52/52 全面碾压

6 个 benchmark × 7 个目标模型 × 3 个 execution harness 的全部 52 个 cells 都是 best or tied-best

GPT-5.5 直接对话模式

Benchmark无技能SkillOpt提升
SpreadsheetBench41.8**80.7**+38.9
OfficeQA33.1**72.1**+39.0
LiveMathematicianBench37.6**66.9**+29.3
SearchQA77.7**87.3**+9.6
DocVQA78.8**91.2**+12.4
ALFWorld83.6**95.5**+11.9
**平均**58.8**82.3****+23.5**

Agentic Harness 模式 (GPT-5.5)

小模型也有效

迁移实验

迁移类型效果
跨模型SpreadsheetBench skill 从 GPT-5.4 迁移到所有小模型都有提升
跨 HarnessCodex 训练的 skill → Claude Code: **+59.7 points**
跨 BenchmarkOlympiadBench skill → Omni-MATH: 正增益

一个 skill 被训练一次后,可以像模型权重一样复用

与我们的关联

Jay 一直在构建和迭代 Agent 技能系统(Daily-Review、skill-creator、各 Agent 的 skills)。SkillOpt 的架构设计直接解决了当前的问题:

1. 你的 AGENTS.md / SOUL.md / TOOLS.md 本质上就是 skill artifacts。SkillOpt 的思路是:这些文件应该被"训练"而非"手工维护"。

2. OpenClaw 正从固定 prompt 向灵活技能系统演化。SkillOpt 的技能可迁移、可审计、可部署的特性正好匹配。

3. 代码已开源(MIT),可以直接参考实现。Optimizer 模型用 GPT-5.5,但设计上支持任何 LM(包括 Qwen)。

4. 对比你已了解的 Trace2Skill、EvoSkill:SkillOpt 是更系统化的方案,有学习率、验证、负反馈等"训练"组件。

评分

维度评分说明
技术深度⭐⭐⭐⭐⭐首次将训练纪律引入技能优化
实用性⭐⭐⭐⭐⭐开源 + MIT + 支持多种模型/harness
创新性⭐⭐⭐⭐⭐文本-learning rate、validation gate、rejected buffer 都是新概念
实验严谨度⭐⭐⭐⭐⭐52/52 cells 全面评估 + 迁移实验
与 Jay 项目关联⭐⭐⭐⭐⭐直接相关于 Agent 技能系统建设