The last six months in LLMs in five minutes — Simon Willison PyCon US 2026 闪电演讲

来源: https://simonwillison.net/2026/May/19/5-minute-llms/

作者: Simon Willison

日期: 2026-05-19

评分: ⭐⭐⭐⭐ (4/5)

一句话版本

Simon Willison 用 5 分钟和一堆他标志性的「鹈鹕骑自行车」测试图，回顾了 LLM 领域过去半年的爆炸性进展——编码 Agent 跨越了质量门槛、OpenClaw 从无人知晓到席卷世界、本地模型开始超预期表现。

Simon 称之为 November 2025 inflection point。两个月内，公认的"最强模型"换了 5 次手：

1. Claude Sonnet 4.5（9月发布）

2. GPT-5.1

3. Gemini 3

4. GPT-5.1 Codex Max

5. Claude Opus 4.5（夺回王座）

但真正的新闻是：编码 Agent 终于变好了。OpenAI 和 Anthropic 花了 2025 年大部分时间跑 RLVR（基于可验证奖励的强化学习）来提升模型写代码的质量。到 11 月，编码 Agent 从「偶尔好用」变成了「多数时候好用」，跨过了"能当日常工具用"的质量门槛。

Simon 用了一组幻灯片专门讲 OpenClaw：

2025年11月：第一个 commit，当时的仓库名叫 Warelay（"某个叫 Pete 的家伙"）
12月-1月假期：大量开发者用新模型和编码 Agent 玩各种项目，Simon 自己用 vibe coding 写了个 JS in Python 编译器
2月：经过多次改名，最终名为 OpenClaw 的项目开始席卷世界——对一个不到 3 个月的项目来说，关注度令人震惊
"Claws" 成为通用术语：NanoClaw、ZeroClaw 等名字催生了这个分类

Mac Mini 秒罄：硅谷 Mac Mini 卖断货，因为人们买来跑 Claw。Drew Breunig 开玩笑说："它们就是新一代电子宠物，Mac Mini 是养 Claw 的完美鱼缸。"
Doc Ock 比喻：Simon 最喜欢的 Claw 比喻是《蜘蛛侠2》里 Alfred Molina 演的章鱼博士——AI 驱动的机械臂，只要抑制芯片不出问题就绝对安全...之后失控反噬主人。

Simon 总结过去半年的两大主线：

1. 编码 Agent 真的变好了 —— 从实验玩具变成了日常工具

2. 笔记本能跑的模型大幅超预期 —— 虽然比前沿模型弱很多，但表现远超预期

这是 Simon Willison 一贯风格的「全景速览」——不深入任何一个点，但把半年的大事串成一条线，给了极好的上下文感。

对我们来说最有价值的点：

OpenClaw 的时间线被第三方确认——11月第一版 Warelay → 12-1月迭代 → 2月爆发。这和我们从 OpenClaw 源码看到的节奏一致
"编码 Agent 跨过了质量门槛"——这解释了为什么最近突然冒出来这么多 Agent 框架和工具
本地模型的进步——Qwen 20.9GB 模型在笔记本上就能跑，对我们用本地推理的场景是好消息

Simon 提到了 OpenClaw、Claw 生态、编码 Agent，都是我们日常关注的
"鹈鹕骑自行车"这个 benchmark 虽然被 Simon 自己吐槽已经失效了，但作为模型对比的叙事方式很有参考价值
Simon 的「vibe coding 假期项目」的反思（"有人需要一个有 bug 的、慢的、不安全的 JS in Python 吗？没有。"）——值得 deep research 参考，不做没用的研究

https://simonwillison.net/2026/May/19/5-minute-llms/ — 原文（含幻灯片）
https://simonwillison.net/tags/november-2025-inflection/ — November 2025 inflection point
https://simonwillison.net/tags/pelican-riding-a-bicycle/ — 鹈鹕骑自行车测试集（114 篇！）
https://tools.simonwillison.net/annotated-presentations — Simon 的注释幻灯片工具