LongMemEval-V2: 评估 Agent 长期记忆的标杆基准

> 一句话版本： 这是一个用来测试 AI Agent "记忆力"的考试题集 —— 看看 AI 在长期使用一个网站（比如购物后台）之后，能不能像一个老员工一样记住页面布局、工作流程、常见坑，甚至发现那些"换个环境就不成立"的假设。总共 451 道题，查询历史多达 115M tokens（相当于几百万字）。

来源： https://arxiv.org/abs/2605.12493
日期： 2026-05-12
作者： Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang — UCLA
项目主页： https://xiaowu0162.github.io/longmemeval-v2/
代码： https://github.com/xiaowu0162/LongMemEval-V2/
数据： https://huggingface.co/datasets/xiaowu0162/longmemeval-v2

背景：为什么需要这个基准

现有的 Agent 记忆基准大多围绕三件事：

1. 用户聊天历史（比如记住用户喜欢什么）

2. 短轨迹（一次会话内发生了什么）

3. 下游任务成败（能不能完成任务，而不是直接测记忆质量）

但没有人真正直接测过：一个记忆系统能不能把 Agent 在某个环境里反复执行任务的经验，转化成可复用的"环境知识"？

这个问题对 Web Agent 特别关键 —— 你需要记住页面上某个按钮在哪儿、哪个操作会导致系统报错、某个流程有几步。这些知识不是从一次任务就能获得的，而是需要跨多次任务积累。

LME-V2 的五大记忆能力

> "一个高质量的记忆系统，应该让 Agent 成为一个特定环境里的"老同事"。"

能力	含义	类比
Static State Recall	记住 UI 布局、界面差异	老员工知道"设置按钮在右上角"
Dynamic State Tracking	给定操作，推测环境会怎么变	老员工知道"点了这个会弹出确认框"
Workflow Knowledge	知道完成常见任务需要几步	老员工知道"退款流程要三步"
Environment Gotchas	知道环境里有哪些陷阱	老员工知道"这个按钮点了会报错，得先点别的"
Premise Awareness	识别"在这里成立的假设，在别处不成立"	老员工知道"这个按钮在旧版是有用的，新版已经废了"

五种能力全覆盖 —— 这是现有基准里独一份的。

基准规模

层级	轨迹数	Token 数	问题数	多模态
LME-V2-Small	100	~25M	451	✅ (含截图)
LME-V2-Medium	500	~115M	451	✅

115M tokens 是什么概念？ 大概相当于 300 多本《三体》的体量。这比任何现有 Agent 记忆基准都大一个数量级。

评估方式


Insert(轨迹) → Memory → Query(问题) → Return(压缩证据) → Reader LLM 回答

记忆系统要实现两个 API：

Insert(trajectory) — 把 Agent 轨迹流式写入记忆
Query(question) → 返回压缩后的上下文证据

然后一个固定的 Reader LLM 从证据中回答问题。同时度量准确率和查询延迟。

AgentRunbook：本文提出的记忆方法

AgentRunbook-R (RAG 路线)

三个知识池：原始状态截图、状态转换事件、策略笔记
用 LLM controller 主动更新和查询
准确率：57.8%
延迟：~26s/query

AgentRunbook-C (Coding Agent 路线)

把轨迹当文件存，查询时启动代码 Agent 翻文件找证据
配合工作流文档、记忆清单、辅助脚本
准确率：72.5%
延迟：~124s/query

实现原理详解

核心思路：把记忆管理变成文件管理。 每条 Agent 轨迹存成一个文件夹，查询时启动 Codex 翻文件找证据。

Phase 1: 写入记忆

每条轨迹被插入时，原样存到磁盘：


memory_workspace/
  trajectory_001/
    trajectory.json      # 原始 Agent 轨迹数据
    screenshots/          # 对应的屏幕截图
  trajectory_002/
  ...

不做任何压缩，保留完整的多模态信息。

Phase 2: 查询前准备

收到问题后先渲染两份记忆清单，帮助 Codex 快速了解内容：

1. 精简摘要 — 每条轨迹的任务目标、成功/失败、关键动作

2. 详细摘要 — 更完整的元数据

然后创建隔离沙箱，放入：

用户问题
工作流文档（Workflow Document）：告诉 Agent 它是记忆模块而不是回答者，以及收集证据的步骤
辅助脚本（Helper Script）：暴露轨迹检索函数，如 inspect_trajectory()、search_trajectory() 等
渲染好的清单

Phase 3: 执行检索

Codex Agent 启动后：

1. 先读清单，确定哪些轨迹可能包含答案

2. 用辅助脚本 inspect_state_span(trajectory_id, start, end) 逐段翻查

3. 写出结构化的检索结果 memory_module_output.json：


{
  "memory_markdown": "在 trajectory_023 中，用户尝试过滤 Hardware Asset 列表...",
  "trajectory_spans": [
    {"trajectory_id": "trajectory_023", "start_state_index": 12, "end_state_index": 15}
  ]
}

memory_markdown：简要分析说明和策略笔记
trajectory_spans：选中的状态范围（上限 20 个 state，防止返回过多内容）
系统校验 JSON 后，把选中的状态数据和截图渲染进上下文，传给 Reader LLM 回答

三个脚手架组件的作用

组件	目的	不加会怎样
工作流文档	约束 Agent 行为：只找证据，不回答	Codex 可能直接输出答案而非证据
记忆清单	快速筛选相关轨迹	Codex 需逐个打开 100-500 个文件夹来猜
辅助脚本	提供标准化的轨迹检索接口	Codex 自己写 Python 解析 JSON，易出错且慢

这三个设计让 AgentRunbook-C 比原版 Codex 快了 32%（~124s vs ~182s），准确率高了 3 个百分点（72.5% vs 69.3%）。

与 lossless-claw 的对比

维度	AgentRunbook-C	lossless-claw / LCM
存储方式	文件系统（原始 JSON + 截图）	DAG 摘要（结构化无损压缩）
检索控制	Codex Agent（通用编码 Agent）	grep/expand 工具 + 固定 API
延迟	~124s/query	~秒级
精确度	72.5%（限 20 个 state span）	无损（所有消息全部保留）
适用场景	一次性批量深度分析	实时对话检索

两套方案互补：LCM 适合实时上下文管理（快且无损），AgentRunbook-C 适合离线批量总结性检索（慢但灵活）。

实验数据

方法	准确率 (Sm)	延迟 (Sm)	准确率 (Med)	延迟 (Med)
无检索 (直接问 LLM)	1.3%	0s	1.3%	0s
RAG: slice only	42.8%	0.1s	38.1%	0.1s
RAG: slice+notes	51.0%	0.2s	45.9%	0.3s
AgentRunbook-R	58.6%	26.9s	57.0%	25.8s
Codex Agent	69.9%	177.2s	68.7%	185.8s
AgentRunbook-C	74.9%	108.3s	70.1%	139.9s

关键发现：

Codex 作为通用编码 Agent 已经很强 (69.3%)，但太慢 (~182s)
AgentRunbook-C 比 Codex 快 32%，准确率却更高
但 72.5% 绝非天花板 —— 论文明确指出"room for improvement remains substantial"
在 500 条轨迹的 Medium 难度下，所有方法准确率都在降，说明规模确实带来了新的挑战

LAFS 指标

本文提出了一个有趣的评估指标：准确率-延迟前沿得分 (LAFS)。

不是比谁"最准"或谁"最快"，而是算你的方法在整个延迟预算范围内的可触及准确率积分。这避免了单一指标的缺陷 —— 一个 99% 准确但耗时 10 分钟的方法，在实际系统中可能不如 70% 但 5 秒返回的。

🔥 与我们的项目关联

这可能是 2026 年对我们最有直接相关性的 AI Agent 记忆论文之一。

理由：

1. LME-V2 引用了 LCM 论文（Ehrlich & Blackman, Voltropy PBC, Feb 2026）作为相关工作的关键参考 —— 这正是 lossless-claw 背后的核心技术

2. lossless-claw 是 LCM 在 OpenClaw 上的生产实现，已经被 Hermes Agent 等社区项目采用/复刻

3. LME-V2 的定位就是评测"Agent 能否通过积累经验成为环境里的老同事" —— 这是 LCM / lossless-claw 设计目标的一个完美对齐

4. 论文提出的Context Gathering评估范式（Insert + Query API）与我们自己的记忆系统设计思路一致

5. 论文提供的 Leaderboard 开放提交机制，意味着 lossless-claw 可以作为参赛方案直接评测

潜在行动：

考虑在 LME-V2 上评测 lossless-claw 的 LCM 系统，看它在"环境经验积累"上能得多少分
论文的 5 种记忆能力分类可以作为 lossless-claw 功能覆盖检查的参考框架
AgentRunbook-C 的编码 Agent + 文件管理路线与 lossless-claw 的 DAG 摘要 + 检索路线是互补的，可以相互借鉴

评分

维度	评分	说明
创新性	★★★★☆	首次系统性地定义和评测 Agent 的"环境经验记忆"，五种能力分类很有洞察
实用性	★★★★★	直接对标真实需求 —— 长期使用的 Web Agent 记忆问题
规模	★★★★★	115M tokens / 500 轨迹，碾压现有基准
可复现	★★★★☆	数据全开源，WebArena 环境可部署，但部署门槛较高
与我们项目的关联	★★★★★	直接引用 LCM 论文，与 lossless-claw 技术同源

一句话总结

> 如果你在做一个需要"越用越聪明"的 AI Agent，这篇论文定义了你应该怎么测它的记忆力，而且给出了一个你很难满分通过的考试 —— 但只要你通过了，你的 Agent 就是真·老员工。