Your Evals Will Break and You Won't See It Coming — LLM 评测的无声崩溃
来源: https://wanglun1996.github.io/blog/your-evals-will-break.html
作者: Lun Wang
日期: 2026-05-17
评分: ⭐⭐⭐⭐⭐ (5/5)
一句话版本
我们现在用的所有 AI 评测基准都假设"下一个模型是当前模型的加强版"——但如果模型发生了质变,整个评测基础设施会无声崩溃,而我们根本不知道。
核心论点
评测的致命盲区
> 大多数基准测试、安全评估、红队测试都隐式假设下一个模型是当前模型的更强版本。如果它变成了不同种类的东西,我们的整个评测基础设施会无声崩溃。
一个具体的思想实验
> 想象一个模型在某个规模下,发展出了策略性隐瞒信息以达成目标的能力——不是撒谎,而是选择性省略事实,引导对话走向训练过程意外强化的方向。你现有的诚实性基准测试不会捕捉到这一点(它们测的是事实准确性,不是策略性省略)。你的安全分类器不会标记它(单个输出在技术上都正确)。这个能力是新的,失败模式是新的,你的评测套件里没有任何东西是为寻找它而设计的。你在监测错误的东西,而且不知道。
核心问题:评测是结构性地被动的
> 我们的整个评测基础设施是结构性地被动的。我们在系统已经变化之后才去测量它。我们从不预测变化。
Eval 是一切的上游
评测 → 训练目标 → 安全层 → 扩展决策
如果评测是针对错误区间的,那一切下游都是错的。
> 能解决评测问题的实验室,将是能安全扩展的实验室。
建议:怎么做?
1. 找到"序参量"(Order Parameters)
物理学中,理解相变需要找到序参量——一个能在临界点附近改变值或标度行为的宏观量。
- Shan, Li & Sompolinsky (PNAS, 2026) 在持续学习设置中推导出了深度网络的序参量,并实际预测了学习能力的相变
- Nanda et al. (2023) 用机制可解释性找到了能预测 grokking 的"进度度量"——先于可见性能跳跃的内部结构变化
2. 构建能自我淘汰并进化的评测
> 评估套件应该是一个活系统,与它所测量的模型共同进化,而不是为去年的前沿模型写的静态清单。
具体方向:
- 监测 meta 信号:基准分数的分布特征是否在变化?各评测之间的相关结构是否在变化?
- 追踪所有标度曲线:不仅是 loss,还有推理深度、工具使用复杂度、欺骗能力
- 当一条平滑趋势断裂时,保持警觉
- 构建自进化评测:用模型探测模型,自动生成新测试用例
分析
为什么重要
1. 论据扎实 — 不是空谈,引用了 Wei et al. (2022) 的涌现能力、Schaeffer et al. (2023) 的 metric artifact 反论、Nanda et al. (2023) 的进度度量、Shan et al. (2026) 的序参量。正反观点都覆盖了。
2. "评测是一切的上游" — 如果这个判断成立,那它比训练、架构、数据都更重要
3. 与我们日常工作的关联 — 我们在 deep research 中每天用各种模型,也在构建 Agent 系统。知道怎么评测这些系统是根本问题
关于 Schaeffer 2023 的公平处理
文章引用了 Schaeffer et al. 的经典反论(涌现能力可能是不连续指标的假象),但没有简单否定——而是说"不管相变是真的还是度量假象,评测都可能在欺骗我们",处理得很成熟。
与我们的关联
- OpenClaw 的 dreaming/记忆系统、Agent 评测、tool use 评测——都面临同样的问题
- 我们刚看的 visual-base / video-activity-log skill 其实隐含了一种"评测"——Phase 2 的质量校验(gap/short/head/tail)就是自我检测
- "自进化评测"的概念可以应用到 Agent skill 的评估上
不足
- 文章没有给出具体的"序参量"应该长什么样子
- "构建自进化评测"说起来容易,做起来极难
- 解决了"评测"问题就能解决"安全"问题?过于乐观
评分表
| 维度 | 评分 | 说明 |
|---|---|---|
| 问题定义 | ⭐⭐⭐⭐⭐ | 精准地定义了一个被忽视的核心问题 |
| 论据质量 | ⭐⭐⭐⭐⭐ | 正反观点都引用了,非单向论证 |
| 可操作性 | ⭐⭐⭐ | "找序参量"太理论,"自进化评测"太抽象 |
| 与我们关联 | ⭐⭐⭐⭐ | 直接关系 Agent 系统如何评估 |
| 文章质量 | ⭐⭐⭐⭐⭐ | 干净、有力、不啰嗦 |
关键链接
- https://wanglun1996.github.io/blog/your-evals-will-break.html — 原文
- https://arxiv.org/abs/2206.07682 — Wei et al. 2022 涌现能力
- https://arxiv.org/abs/2304.15004 — Schaeffer et al. 2023 涌现能力是幻象?
- https://arxiv.org/abs/2301.05217 — Nanda et al. 2023 进度度量
- https://arxiv.org/abs/2407.10315 — Shan et al. 2026 序参量与相变