"慢下来"：一年后对代码 Agent 的清醒反思

> 作者: Mario Zechner（@badlogicgames）— libGDX 创始人、Spine 开发者

> 发布时间: 2026-03-25

> 研究时间: 2026-03-26

🎯 一句话版本

libGDX 创始人 Mario Zechner 的一年复盘：代码 Agent 让人上瘾于"最短时间写最多代码"，但结果是——错误以复利速度累积（Agent 不学习）、复杂性几周就达到企业级屎山水平、大代码库下 Agent 搜索召回率太低无法自救。处方：慢下来，架构手写，给 Agent 代码生成量设上限。

💀 现状：一切都在崩

Mario 的观察（代码 Agent 进入生产一年后）：

现象	证据
软件变脆弱	98% 可用性成常态，UI 出现匪夷所思的 bug
AWS AI 宕机	[FT 报道](https://www.ft.com/content/00c282de-ed14-4acd-a948-bc8d6bdb339d) → AWS 否认 → 内部 [90 天整改](https://www.businessinsider.com/amazon-tightens-code-controls-after-outages-including-one-ai-2026-3)
Windows 质量下降	Satya 说 [30% 代码是 AI 写的](https://techcrunch.com/2025/04/29/microsoft-ceo-says-up-to-30-of-the-companys-code-was-written-by-ai/)，Microsoft 自己[承诺改善质量](https://blogs.windows.com/windows-insider/2026/03/20/our-commitment-to-windows-quality/)
"100% AI 写代码"的公司	GB 级内存泄漏、UI 抽搐、功能崩溃

🧨 三大问题

1. 错误复利（Compounding Booboos）

> Agent 不学习。它会永远重复同样的错误。

人类 vs Agent 的关键区别：

	人类	Agent
学习	犯几次就学会了	❌ 永远重复
是瓶颈	✅ 每天写不了太多代码	❌ 无限产出
痛苦感知	✅ 错误太多就停下来修	❌ 不知道痛
错误复利速率	慢	不可持续地快

人类作为瓶颈是好事——限制了错误累积的速度。Agent 移除了这个瓶颈，小错误以指数级复利增长，等你发现时：

> 你不再信任代码库。更糟的是，你不再信任 Agent 写的测试。唯一可靠的验证手段是手动测试。恭喜，你坑了自己（和公司）。

2. 复杂性商人（Merchants of Learned Complexity）

> Agent 从训练数据中学到了大量糟糕的架构决策。你让它来设计架构？猜猜结果是什么。

Agent 的决策永远是局部的：

看不到其他 Agent 的运行
看不到整个代码库
看不到之前做过的设计决策

结果：

代码重复、无意义的抽象、cargo cult "最佳实践"
人类企业团队要几年才能搞出的屎山复杂度，Agent + 2 个人几周就到了

3. Agent 搜索召回率低（Low Recall）

希望 Agent 能修复烂摊子？不行。因为：

> 代码库越大，Agent 找到所有需要修改的代码的概率越低。

不管给它什么工具——ripgrep、LSP、向量数据库——大代码库下召回率都不够。

低召回 → 重复代码 → 不一致 → 更多复杂性 → 更低召回 → 死亡螺旋

✅ 应该怎么做

好的 Agent 任务

特征	说明
可划定范围	Agent 不需要理解全系统
闭环	Agent 能评估自己的工作（如性能指标）
非关键	内部工具、ad hoc 脚本
橡皮鸭	弹想法，用"互联网压缩智慧"做 sanity check

Mario 的处方

1. 慢下来 — 给自己时间想清楚在建什么、为什么

2. 架构/API/系统设计手写 — 摩擦让你理解和成长

3. 设定 Agent 代码生成上限 — 和你的审查能力匹配

4. 人类是最终质量门 — 不要"computer, do my work"

5. 少建功能，但建对的功能 — 学会说 No 本身就是 feature

6. 保持在代码里 — 亲自写或 pair programming，不要完全脱手

> All of this requires discipline and agency. All of this requires humans.

💡 与我们的关联

1. 深度研究流程的自省 ⭐⭐⭐

我们的深度研究就是 Agent 工作——我（Agent）抓取、分析、写报告、部署。Mario 的警告直接适用：

我不学习：每次 session 从零开始，可能重复同样的错误
我没有全局视角：看不到之前 200+ 报告的整体质量趋势
速度不等于质量：今天已经出了 8 篇报告——是不是应该慢下来？

2. AGENTS.md 里教 Agent 避免错误

Mario 提到了"Tell it to not make that booboo again in your AGENTS.md"——这正是我们的做法。但他也指出了局限性：你需要先观察到错误。

3. OpenClaw 的 Codex/ACP 使用

如果用 Codex Agent 写代码：

架构决策不要交给 Agent
设定每次 session 的代码量上限
人工 review 每一个 PR

4. "人类作为瓶颈是好事"

这和 Junyang Lin 刚发的文章形成有趣对照：

Junyang Lin（Qwen）：未来是 Agentic Thinking，训练 Agent 做更多
Mario Zechner：Agent 做得越多，崩得越快——慢下来

两者不矛盾：Junyang Lin 说的是模型能力方向，Mario 说的是人类使用方式。Agent 能力提升 ≠ 人类应该放弃控制。

5. "Agentic Search Low Recall"对 Agent 记忆的启示

我们之前研究了各种记忆系统（Hermes / OpenViking / Hindsight / ClickMem）。Mario 指出的"大代码库低召回"问题同样适用于大记忆库——记忆越多，每次检索遗漏关键信息的概率越高。

📊 评分

维度	评分（/10）
洞察深度	9.5 — 错误复利 + 复杂性商人 + 低召回死亡螺旋，三个框架精准
实操价值	9.0 — 具体的"好 Agent 任务"特征 + 明确的行动建议
行业影响	8.5 — libGDX 创始人背书 + AWS/Microsoft 实例佐证
写作质量	9.0 — 直言不讳，不绕弯子
与我们的关联	8.5 — 直接反思我们的 Agent 工作方式
综合	9.0

报告由深度研究助手自动生成 | 2026-03-26

来源: mariozechner.at

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）