LongMemEval-V2: 评估 Agent 长期记忆的标杆基准

> 一句话版本: 这是一个用来测试 AI Agent "记忆力"的考试题集 —— 看看 AI 在长期使用一个网站(比如购物后台)之后,能不能像一个老员工一样记住页面布局、工作流程、常见坑,甚至发现那些"换个环境就不成立"的假设。总共 451 道题,查询历史多达 115M tokens(相当于几百万字)。

背景:为什么需要这个基准

现有的 Agent 记忆基准大多围绕三件事:

1. 用户聊天历史(比如记住用户喜欢什么)

2. 短轨迹(一次会话内发生了什么)

3. 下游任务成败(能不能完成任务,而不是直接测记忆质量)

但没有人真正直接测过:一个记忆系统能不能把 Agent 在某个环境里反复执行任务的经验,转化成可复用的"环境知识"?

这个问题对 Web Agent 特别关键 —— 你需要记住页面上某个按钮在哪儿、哪个操作会导致系统报错、某个流程有几步。这些知识不是从一次任务就能获得的,而是需要跨多次任务积累。

LME-V2 的五大记忆能力

> "一个高质量的记忆系统,应该让 Agent 成为一个特定环境里的"老同事"。"

能力含义类比
**Static State Recall**记住 UI 布局、界面差异老员工知道"设置按钮在右上角"
**Dynamic State Tracking**给定操作,推测环境会怎么变老员工知道"点了这个会弹出确认框"
**Workflow Knowledge**知道完成常见任务需要几步老员工知道"退款流程要三步"
**Environment Gotchas**知道环境里有哪些陷阱老员工知道"这个按钮点了会报错,得先点别的"
**Premise Awareness**识别"在这里成立的假设,在别处不成立"老员工知道"这个按钮在旧版是有用的,新版已经废了"

五种能力全覆盖 —— 这是现有基准里独一份的。

基准规模

层级轨迹数Token 数问题数多模态
LME-V2-Small100~25M451✅ (含截图)
LME-V2-Medium500~115M451

115M tokens 是什么概念? 大概相当于 300 多本《三体》的体量。这比任何现有 Agent 记忆基准都大一个数量级。

评估方式


Insert(轨迹) → Memory → Query(问题) → Return(压缩证据) → Reader LLM 回答

记忆系统要实现两个 API:

然后一个固定的 Reader LLM 从证据中回答问题。同时度量准确率查询延迟

AgentRunbook:本文提出的记忆方法

AgentRunbook-R (RAG 路线)

AgentRunbook-C (Coding Agent 路线)

实现原理详解

核心思路:把记忆管理变成文件管理。 每条 Agent 轨迹存成一个文件夹,查询时启动 Codex 翻文件找证据。

Phase 1: 写入记忆

每条轨迹被插入时,原样存到磁盘:


memory_workspace/
  trajectory_001/
    trajectory.json      # 原始 Agent 轨迹数据
    screenshots/          # 对应的屏幕截图
  trajectory_002/
  ...

不做任何压缩,保留完整的多模态信息。

Phase 2: 查询前准备

收到问题后先渲染两份记忆清单,帮助 Codex 快速了解内容:

1. 精简摘要 — 每条轨迹的任务目标、成功/失败、关键动作

2. 详细摘要 — 更完整的元数据

然后创建隔离沙箱,放入:

Phase 3: 执行检索

Codex Agent 启动后:

1. 先读清单,确定哪些轨迹可能包含答案

2. 用辅助脚本 inspect_state_span(trajectory_id, start, end) 逐段翻查

3. 写出结构化的检索结果 memory_module_output.json


{
  "memory_markdown": "在 trajectory_023 中,用户尝试过滤 Hardware Asset 列表...",
  "trajectory_spans": [
    {"trajectory_id": "trajectory_023", "start_state_index": 12, "end_state_index": 15}
  ]
}

三个脚手架组件的作用

组件目的不加会怎样
**工作流文档**约束 Agent 行为:只找证据,不回答Codex 可能直接输出答案而非证据
**记忆清单**快速筛选相关轨迹Codex 需逐个打开 100-500 个文件夹来猜
**辅助脚本**提供标准化的轨迹检索接口Codex 自己写 Python 解析 JSON,易出错且慢

这三个设计让 AgentRunbook-C 比原版 Codex 快了 32%(~124s vs ~182s),准确率高了 3 个百分点(72.5% vs 69.3%)。

与 lossless-claw 的对比

维度AgentRunbook-Clossless-claw / LCM
存储方式文件系统(原始 JSON + 截图)DAG 摘要(结构化无损压缩)
检索控制Codex Agent(通用编码 Agent)grep/expand 工具 + 固定 API
延迟~124s/query~秒级
精确度72.5%(限 20 个 state span)无损(所有消息全部保留)
适用场景一次性批量深度分析实时对话检索

两套方案互补:LCM 适合实时上下文管理(快且无损),AgentRunbook-C 适合离线批量总结性检索(慢但灵活)。

实验数据

方法准确率 (Sm)延迟 (Sm)准确率 (Med)延迟 (Med)
无检索 (直接问 LLM)1.3%0s1.3%0s
RAG: slice only42.8%0.1s38.1%0.1s
RAG: slice+notes51.0%0.2s45.9%0.3s
**AgentRunbook-R**58.6%26.9s57.0%25.8s
Codex Agent69.9%177.2s68.7%185.8s
**AgentRunbook-C****74.9%**108.3s**70.1%**139.9s

关键发现:

LAFS 指标

本文提出了一个有趣的评估指标:准确率-延迟前沿得分 (LAFS)

不是比谁"最准"或谁"最快",而是算你的方法在整个延迟预算范围内的可触及准确率积分。这避免了单一指标的缺陷 —— 一个 99% 准确但耗时 10 分钟的方法,在实际系统中可能不如 70% 但 5 秒返回的。

🔥 与我们的项目关联

这可能是 2026 年对我们最有直接相关性的 AI Agent 记忆论文之一。

理由:

1. LME-V2 引用了 LCM 论文(Ehrlich & Blackman, Voltropy PBC, Feb 2026)作为相关工作的关键参考 —— 这正是 lossless-claw 背后的核心技术

2. lossless-claw 是 LCM 在 OpenClaw 上的生产实现,已经被 Hermes Agent 等社区项目采用/复刻

3. LME-V2 的定位就是评测"Agent 能否通过积累经验成为环境里的老同事" —— 这是 LCM / lossless-claw 设计目标的一个完美对齐

4. 论文提出的Context Gathering评估范式(Insert + Query API)与我们自己的记忆系统设计思路一致

5. 论文提供的 Leaderboard 开放提交机制,意味着 lossless-claw 可以作为参赛方案直接评测

潜在行动:

评分

维度评分说明
创新性★★★★☆首次系统性地定义和评测 Agent 的"环境经验记忆",五种能力分类很有洞察
实用性★★★★★直接对标真实需求 —— 长期使用的 Web Agent 记忆问题
规模★★★★★115M tokens / 500 轨迹,碾压现有基准
可复现★★★★☆数据全开源,WebArena 环境可部署,但部署门槛较高
与我们项目的关联★★★★★直接引用 LCM 论文,与 lossless-claw 技术同源

一句话总结

> 如果你在做一个需要"越用越聪明"的 AI Agent,这篇论文定义了你应该怎么测它的记忆力,而且给出了一个你很难满分通过的考试 —— 但只要你通过了,你的 Agent 就是真·老员工。