The last six months in LLMs in five minutes — Simon Willison PyCon US 2026 闪电演讲

来源: https://simonwillison.net/2026/May/19/5-minute-llms/

作者: Simon Willison

日期: 2026-05-19

评分: ⭐⭐⭐⭐ (4/5)

一句话版本

Simon Willison 用 5 分钟和一堆他标志性的「鹈鹕骑自行车」测试图,回顾了 LLM 领域过去半年的爆炸性进展——编码 Agent 跨越了质量门槛、OpenClaw 从无人知晓到席卷世界、本地模型开始超预期表现。

核心内容

2025年11月:转折点

Simon 称之为 November 2025 inflection point。两个月内,公认的"最强模型"换了 5 次手:

1. Claude Sonnet 4.5(9月发布)

2. GPT-5.1

3. Gemini 3

4. GPT-5.1 Codex Max

5. Claude Opus 4.5(夺回王座)

但真正的新闻是:编码 Agent 终于变好了。OpenAI 和 Anthropic 花了 2025 年大部分时间跑 RLVR(基于可验证奖励的强化学习)来提升模型写代码的质量。到 11 月,编码 Agent 从「偶尔好用」变成了「多数时候好用」,跨过了"能当日常工具用"的质量门槛。

OpenClaw 的崛起

Simon 用了一组幻灯片专门讲 OpenClaw:

金句

近一个月(2026年4-5月)

两大主题

Simon 总结过去半年的两大主线:

1. 编码 Agent 真的变好了 —— 从实验玩具变成了日常工具

2. 笔记本能跑的模型大幅超预期 —— 虽然比前沿模型弱很多,但表现远超预期

分析

为什么重要

这是 Simon Willison 一贯风格的「全景速览」——不深入任何一个点,但把半年的大事串成一条线,给了极好的上下文感。

对我们来说最有价值的点:

与我们的关联

评分表

维度评分说明
时效性⭐⭐⭐⭐⭐今天刚发布的 PyCon 演讲
覆盖广度⭐⭐⭐⭐半年全景,但偏模型竞赛和 Agent
深度⭐⭐⭐闪电演讲,不可能深入
趣味性⭐⭐⭐⭐⭐鹈鹕骑自行车永不让人失望
与我们关联⭐⭐⭐⭐⭐直接涉及 OpenClaw 生态

关键链接