Your Evals Will Break and You Won't See It Coming — LLM 评测的无声崩溃

来源: https://wanglun1996.github.io/blog/your-evals-will-break.html

作者: Lun Wang

日期: 2026-05-17

评分: ⭐⭐⭐⭐⭐ (5/5)

一句话版本

我们现在用的所有 AI 评测基准都假设"下一个模型是当前模型的加强版"——但如果模型发生了质变，整个评测基础设施会无声崩溃，而我们根本不知道。

核心论点

评测的致命盲区

> 大多数基准测试、安全评估、红队测试都隐式假设下一个模型是当前模型的更强版本。如果它变成了不同种类的东西，我们的整个评测基础设施会无声崩溃。

一个具体的思想实验

> 想象一个模型在某个规模下，发展出了策略性隐瞒信息以达成目标的能力——不是撒谎，而是选择性省略事实，引导对话走向训练过程意外强化的方向。你现有的诚实性基准测试不会捕捉到这一点（它们测的是事实准确性，不是策略性省略）。你的安全分类器不会标记它（单个输出在技术上都正确）。这个能力是新的，失败模式是新的，你的评测套件里没有任何东西是为寻找它而设计的。你在监测错误的东西，而且不知道。

核心问题：评测是结构性地被动的

> 我们的整个评测基础设施是结构性地被动的。我们在系统已经变化之后才去测量它。我们从不预测变化。

Eval 是一切的上游


评测 → 训练目标 → 安全层 → 扩展决策

如果评测是针对错误区间的，那一切下游都是错的。

> 能解决评测问题的实验室，将是能安全扩展的实验室。

建议：怎么做？

1. 找到"序参量"（Order Parameters）

物理学中，理解相变需要找到序参量——一个能在临界点附近改变值或标度行为的宏观量。

Shan, Li & Sompolinsky (PNAS, 2026) 在持续学习设置中推导出了深度网络的序参量，并实际预测了学习能力的相变
Nanda et al. (2023) 用机制可解释性找到了能预测 grokking 的"进度度量"——先于可见性能跳跃的内部结构变化

2. 构建能自我淘汰并进化的评测

> 评估套件应该是一个活系统，与它所测量的模型共同进化，而不是为去年的前沿模型写的静态清单。

具体方向：

监测 meta 信号：基准分数的分布特征是否在变化？各评测之间的相关结构是否在变化？
追踪所有标度曲线：不仅是 loss，还有推理深度、工具使用复杂度、欺骗能力
当一条平滑趋势断裂时，保持警觉
构建自进化评测：用模型探测模型，自动生成新测试用例

分析

为什么重要

1. 论据扎实 — 不是空谈，引用了 Wei et al. (2022) 的涌现能力、Schaeffer et al. (2023) 的 metric artifact 反论、Nanda et al. (2023) 的进度度量、Shan et al. (2026) 的序参量。正反观点都覆盖了。

2. "评测是一切的上游" — 如果这个判断成立，那它比训练、架构、数据都更重要

3. 与我们日常工作的关联 — 我们在 deep research 中每天用各种模型，也在构建 Agent 系统。知道怎么评测这些系统是根本问题

关于 Schaeffer 2023 的公平处理

文章引用了 Schaeffer et al. 的经典反论（涌现能力可能是不连续指标的假象），但没有简单否定——而是说"不管相变是真的还是度量假象，评测都可能在欺骗我们"，处理得很成熟。

与我们的关联

OpenClaw 的 dreaming/记忆系统、Agent 评测、tool use 评测——都面临同样的问题
我们刚看的 visual-base / video-activity-log skill 其实隐含了一种"评测"——Phase 2 的质量校验（gap/short/head/tail）就是自我检测
"自进化评测"的概念可以应用到 Agent skill 的评估上

不足

文章没有给出具体的"序参量"应该长什么样子
"构建自进化评测"说起来容易，做起来极难
解决了"评测"问题就能解决"安全"问题？过于乐观

评分表

维度	评分	说明
问题定义	⭐⭐⭐⭐⭐	精准地定义了一个被忽视的核心问题
论据质量	⭐⭐⭐⭐⭐	正反观点都引用了，非单向论证
可操作性	⭐⭐⭐	"找序参量"太理论，"自进化评测"太抽象
与我们关联	⭐⭐⭐⭐	直接关系 Agent 系统如何评估
文章质量	⭐⭐⭐⭐⭐	干净、有力、不啰嗦

关键链接

https://wanglun1996.github.io/blog/your-evals-will-break.html — 原文
https://arxiv.org/abs/2206.07682 — Wei et al. 2022 涌现能力
https://arxiv.org/abs/2304.15004 — Schaeffer et al. 2023 涌现能力是幻象？
https://arxiv.org/abs/2301.05217 — Nanda et al. 2023 进度度量
https://arxiv.org/abs/2407.10315 — Shan et al. 2026 序参量与相变