"慢下来":一年后对代码 Agent 的清醒反思
> 来源: Thoughts on slowing the fuck down
> 作者: Mario Zechner(@badlogicgames)— libGDX 创始人、Spine 开发者
> 发布时间: 2026-03-25
> 研究时间: 2026-03-26
🎯 一句话版本
libGDX 创始人 Mario Zechner 的一年复盘:代码 Agent 让人上瘾于"最短时间写最多代码",但结果是——错误以复利速度累积(Agent 不学习)、复杂性几周就达到企业级屎山水平、大代码库下 Agent 搜索召回率太低无法自救。处方:慢下来,架构手写,给 Agent 代码生成量设上限。
💀 现状:一切都在崩
Mario 的观察(代码 Agent 进入生产一年后):
| 现象 | 证据 |
|---|---|
| 软件变脆弱 | 98% 可用性成常态,UI 出现匪夷所思的 bug |
| AWS AI 宕机 | [FT 报道](https://www.ft.com/content/00c282de-ed14-4acd-a948-bc8d6bdb339d) → AWS 否认 → 内部 [90 天整改](https://www.businessinsider.com/amazon-tightens-code-controls-after-outages-including-one-ai-2026-3) |
| Windows 质量下降 | Satya 说 [30% 代码是 AI 写的](https://techcrunch.com/2025/04/29/microsoft-ceo-says-up-to-30-of-the-companys-code-was-written-by-ai/),Microsoft 自己[承诺改善质量](https://blogs.windows.com/windows-insider/2026/03/20/our-commitment-to-windows-quality/) |
| "100% AI 写代码"的公司 | GB 级内存泄漏、UI 抽搐、功能崩溃 |
🧨 三大问题
1. 错误复利(Compounding Booboos)
> Agent 不学习。它会永远重复同样的错误。
人类 vs Agent 的关键区别:
| 人类 | Agent | |
|---|---|---|
| 学习 | 犯几次就学会了 | ❌ 永远重复 |
| **是瓶颈** | ✅ 每天写不了太多代码 | ❌ 无限产出 |
| 痛苦感知 | ✅ 错误太多就停下来修 | ❌ 不知道痛 |
| 错误复利速率 | **慢** | **不可持续地快** |
人类作为瓶颈是好事——限制了错误累积的速度。Agent 移除了这个瓶颈,小错误以指数级复利增长,等你发现时:
> 你不再信任代码库。更糟的是,你不再信任 Agent 写的测试。唯一可靠的验证手段是手动测试。恭喜,你坑了自己(和公司)。
2. 复杂性商人(Merchants of Learned Complexity)
> Agent 从训练数据中学到了大量糟糕的架构决策。你让它来设计架构?猜猜结果是什么。
Agent 的决策永远是局部的:
- 看不到其他 Agent 的运行
- 看不到整个代码库
- 看不到之前做过的设计决策
结果:
- 代码重复、无意义的抽象、cargo cult "最佳实践"
- 人类企业团队要几年才能搞出的屎山复杂度,Agent + 2 个人几周就到了
3. Agent 搜索召回率低(Low Recall)
希望 Agent 能修复烂摊子?不行。因为:
> 代码库越大,Agent 找到所有需要修改的代码的概率越低。
不管给它什么工具——ripgrep、LSP、向量数据库——大代码库下召回率都不够。
低召回 → 重复代码 → 不一致 → 更多复杂性 → 更低召回 → 死亡螺旋
✅ 应该怎么做
好的 Agent 任务
| 特征 | 说明 |
|---|---|
| **可划定范围** | Agent 不需要理解全系统 |
| **闭环** | Agent 能评估自己的工作(如性能指标) |
| **非关键** | 内部工具、ad hoc 脚本 |
| **橡皮鸭** | 弹想法,用"互联网压缩智慧"做 sanity check |
Mario 的处方
1. 慢下来 — 给自己时间想清楚在建什么、为什么
2. 架构/API/系统设计手写 — 摩擦让你理解和成长
3. 设定 Agent 代码生成上限 — 和你的审查能力匹配
4. 人类是最终质量门 — 不要"computer, do my work"
5. 少建功能,但建对的功能 — 学会说 No 本身就是 feature
6. 保持在代码里 — 亲自写或 pair programming,不要完全脱手
> All of this requires discipline and agency. All of this requires humans.
💡 与我们的关联
1. 深度研究流程的自省 ⭐⭐⭐
我们的深度研究就是 Agent 工作——我(Agent)抓取、分析、写报告、部署。Mario 的警告直接适用:
- 我不学习:每次 session 从零开始,可能重复同样的错误
- 我没有全局视角:看不到之前 200+ 报告的整体质量趋势
- 速度不等于质量:今天已经出了 8 篇报告——是不是应该慢下来?
2. AGENTS.md 里教 Agent 避免错误
Mario 提到了"Tell it to not make that booboo again in your AGENTS.md"——这正是我们的做法。但他也指出了局限性:你需要先观察到错误。
3. OpenClaw 的 Codex/ACP 使用
如果用 Codex Agent 写代码:
- 架构决策不要交给 Agent
- 设定每次 session 的代码量上限
- 人工 review 每一个 PR
4. "人类作为瓶颈是好事"
这和 Junyang Lin 刚发的文章形成有趣对照:
- Junyang Lin(Qwen):未来是 Agentic Thinking,训练 Agent 做更多
- Mario Zechner:Agent 做得越多,崩得越快——慢下来
两者不矛盾:Junyang Lin 说的是模型能力方向,Mario 说的是人类使用方式。Agent 能力提升 ≠ 人类应该放弃控制。
5. "Agentic Search Low Recall"对 Agent 记忆的启示
我们之前研究了各种记忆系统(Hermes / OpenViking / Hindsight / ClickMem)。Mario 指出的"大代码库低召回"问题同样适用于大记忆库——记忆越多,每次检索遗漏关键信息的概率越高。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 洞察深度 | 9.5 — 错误复利 + 复杂性商人 + 低召回死亡螺旋,三个框架精准 |
| 实操价值 | 9.0 — 具体的"好 Agent 任务"特征 + 明确的行动建议 |
| 行业影响 | 8.5 — libGDX 创始人背书 + AWS/Microsoft 实例佐证 |
| 写作质量 | 9.0 — 直言不讳,不绕弯子 |
| 与我们的关联 | 8.5 — 直接反思我们的 Agent 工作方式 |
| **综合** | **9.0** |
报告由深度研究助手自动生成 | 2026-03-26
来源: mariozechner.at