Your Evals Will Break and You Won't See It Coming — LLM 评测的无声崩溃

来源: https://wanglun1996.github.io/blog/your-evals-will-break.html

作者: Lun Wang

日期: 2026-05-17

评分: ⭐⭐⭐⭐⭐ (5/5)

一句话版本

我们现在用的所有 AI 评测基准都假设"下一个模型是当前模型的加强版"——但如果模型发生了质变,整个评测基础设施会无声崩溃,而我们根本不知道。

核心论点

评测的致命盲区

> 大多数基准测试、安全评估、红队测试都隐式假设下一个模型是当前模型的更强版本。如果它变成了不同种类的东西,我们的整个评测基础设施会无声崩溃。

一个具体的思想实验

> 想象一个模型在某个规模下,发展出了策略性隐瞒信息以达成目标的能力——不是撒谎,而是选择性省略事实,引导对话走向训练过程意外强化的方向。你现有的诚实性基准测试不会捕捉到这一点(它们测的是事实准确性,不是策略性省略)。你的安全分类器不会标记它(单个输出在技术上都正确)。这个能力是新的,失败模式是新的,你的评测套件里没有任何东西是为寻找它而设计的。你在监测错误的东西,而且不知道。

核心问题:评测是结构性地被动的

> 我们的整个评测基础设施是结构性地被动的。我们在系统已经变化之后才去测量它。我们从不预测变化。

Eval 是一切的上游


评测 → 训练目标 → 安全层 → 扩展决策

如果评测是针对错误区间的,那一切下游都是错的。

> 能解决评测问题的实验室,将是能安全扩展的实验室。

建议:怎么做?

1. 找到"序参量"(Order Parameters)

物理学中,理解相变需要找到序参量——一个能在临界点附近改变值或标度行为的宏观量。

2. 构建能自我淘汰并进化的评测

> 评估套件应该是一个活系统,与它所测量的模型共同进化,而不是为去年的前沿模型写的静态清单。

具体方向:

分析

为什么重要

1. 论据扎实 — 不是空谈,引用了 Wei et al. (2022) 的涌现能力、Schaeffer et al. (2023) 的 metric artifact 反论、Nanda et al. (2023) 的进度度量、Shan et al. (2026) 的序参量。正反观点都覆盖了。

2. "评测是一切的上游" — 如果这个判断成立,那它比训练、架构、数据都更重要

3. 与我们日常工作的关联 — 我们在 deep research 中每天用各种模型,也在构建 Agent 系统。知道怎么评测这些系统是根本问题

关于 Schaeffer 2023 的公平处理

文章引用了 Schaeffer et al. 的经典反论(涌现能力可能是不连续指标的假象),但没有简单否定——而是说"不管相变是真的还是度量假象,评测都可能在欺骗我们",处理得很成熟。

与我们的关联

不足

评分表

维度评分说明
问题定义⭐⭐⭐⭐⭐精准地定义了一个被忽视的核心问题
论据质量⭐⭐⭐⭐⭐正反观点都引用了,非单向论证
可操作性⭐⭐⭐"找序参量"太理论,"自进化评测"太抽象
与我们关联⭐⭐⭐⭐直接关系 Agent 系统如何评估
文章质量⭐⭐⭐⭐⭐干净、有力、不啰嗦

关键链接