🧠 LongMemEval：AI 长期记忆标杆，ICLR 2025

> 来源: https://github.com/xiaowu0162/LongMemEval

> 项目页: https://xiaowu0162.github.io/long-mem-eval/

> 论文: https://arxiv.org/abs/2410.10813 (ICLR 2025)

> 日期: 2026-05-14

> 作者: Di Wu (UCLA), Hongwei Wang (Tencent AI Lab), Wenhao Yu (Tencent AI Lab), Yuwei Zhang (UCSD), Kai-Wei Chang (UCLA), Dong Yu (Tencent AI Lab)

一句话版本

LongMemEval 是 AI 长期记忆领域的标杆评测，ICLR 2025 接收论文。500 道题测试五大记忆能力——提取、多会话推理、知识更新、时间推理、弃权。Magi 的 87.2% 就出自这里。

核心内容

这是评测什么？

测试聊天助手的长期交互记忆。不是一问一答的"冷知识测试"，而是构建一段有几十上百轮交互的对话历史，然后问一个需要从历史中挖掘信息的问题。

五种能力：

能力	说明	典型问题
信息提取	从大量对话中召回特定事实	"用户上次提到的狗的名字是什么？"
多会话推理	跨多个会话综合推断	"用户在哪次会话中提过最想去的旅游目的地？"
知识更新	识别用户信息的变化	"用户的公司从腾讯跳到了阿里吗？"
时间推理	基于时间戳和上下文的时间感知	"用户是在去日本之前还是之后换了手机？"
弃权	对未知信息主动拒绝回答	问一个历史中从未提及的事，AI 应说不知道

数据集规模

变种	大小	会话数	tokens
LongMemEval_S	500 题	~30-40 会话	~115K
LongMemEval_M	500 题	~500 会话	~1.5M
LongMemEval_Oracle	500 题	仅证据会话	极小

评测方法

用 GPT-4o 作为裁判（LLM-as-judge）评判模型的回答是否正确。自己评测只需在自己的模型上跑生成，然后跑 evaluate_qa.py 即可。

论文关键发现

1. 粒度最优解是 round（轮次），不是 session。进一步压缩成原子事实会损失整体精度，但能提升多会话推理

2. 用记忆值本身做扁平索引就是个强基线。用提取的用户事实扩展 key 能提升 recall@k 4%、准确率 5%

3. 简单的时间感知索引 + 查询扩展就能提升时间推理 7-11%

4. 即使召回完美，阅读理解仍不 trivial。Chain-of-Note + 结构化 JSON 提示能提升最多 10 个绝对百分点

排行榜（2026年5月）

系统	模型	总体
🥇 Mastra Observational Memory	gpt-5-mini	94.87%
🥈 Mastra OM	gemini-3-pro	93.27%
🥉 Hindsight	gemini-3-pro	91.40%
Mastra OM	gemini-3-flash	89.20%
EmergenceMem Internal*	gpt-4o	86.00%*
Supermemory	gemini-3-pro	85.20%
Magi	自研 L0-L4	87.2% ⬆️
Mastra OM	gpt-4o	84.23%
Oracle	gpt-4o	82.40%
Zep	gpt-4o	71.20%
Full Context (原始 GPT-4o)	gpt-4o	60.20%

> *EmergenceMem Internal 不可复现

> ⚠️ 注意：不同系统的得分可能使用不同的 reader/actor 模型，直接对比不完全公平

其他公开分数：

OMEGA (omegamax.co): 95.4% — 开源专用内存系统
ByteRover: 92.8% — Context Tree 层级记忆

Magi 的 87.2% 怎么看？

Magi 的 87.2% 在排行榜中属于中上水平——远超原始 GPT-4o (60.2%)、Oracle (82.4%)，也超过 Mastra OM gpt-4o (84.23%)。但落后于 Mastra OM gpt-5-mini (94.87%)、OMEGA (95.4%) 等使用更强推理模型的系统。

需要注意：Magi 是端到端桌面系统，不是在评测数据集上 fine-tune 过的论文系统。能跑出 87.2% 说明 L0-L4 记忆架构设计是有效的。

2026 年新动向

LongMemEval-V2：扩展到 Agent 上下文（不仅仅是聊天历史），测试工具使用、多步骤任务中的长期记忆
商业化评测平台出现（OMEGA），分数可能会频繁更新

评分

维度	评分	说明
设计质量	⭐⭐⭐⭐⭐	覆盖五大记忆能力，设计严谨
影响力	⭐⭐⭐⭐⭐	ICLR 2025，被 Mastra/OMEGA/Magi 等广泛引用
可复现	⭐⭐⭐⭐	开源数据集+评测脚本，但 LLM-as-judge 有波动
可扩展	⭐⭐⭐⭐⭐	支持自定义故事生成，可扩展任意难度
实用性	⭐⭐⭐⭐⭐	对 AI 记忆系统开发者的必测基准

综合评分：4.8 / 5.0 — 长期记忆领域的标杆评测。如果你是做 Agent 记忆系统的，这个评测是必选项。

项目关联

Magi (今日研究)：87.2%，L0-L4 记忆层架构
Mastra OM：94.87%（gpt-5-mini），84.23%（gpt-4o），开源，Observational Memory 架构
OMEGA：95.4%，专用内存系统，Apache 2.0
ByteRover：92.8%，Context Tree 层级记忆
对 OpenClaw 的记忆/上下文管理功能有直接参考价值

链接

GitHub: https://github.com/xiaowu0162/LongMemEval
项目页: https://xiaowu0162.github.io/long-mem-eval/
论文: https://arxiv.org/abs/2410.10813
数据集 (HuggingFace): https://huggingface.co/datasets/xiaowu0162/longmemeval-cleaned
LongMemEval-V2 (Agent 上下文): https://github.com/xiaowu0162/LongMemEval-V2
Mastra OM 技术报告: https://mastra.ai/research/observational-memory
OMEGA 排行榜: https://omegamax.co/benchmarks
ByteRover 博客: https://www.byterover.dev/blog/benchmark_ai_agent_memory_real_product_longmemeval
相关阅读：Magi 报告 https://temp.jaylab.io/magi-report.html