🧠 LongMemEval:AI 长期记忆标杆,ICLR 2025
> 来源: https://github.com/xiaowu0162/LongMemEval
> 项目页: https://xiaowu0162.github.io/long-mem-eval/
> 论文: https://arxiv.org/abs/2410.10813 (ICLR 2025)
> 日期: 2026-05-14
> 作者: Di Wu (UCLA), Hongwei Wang (Tencent AI Lab), Wenhao Yu (Tencent AI Lab), Yuwei Zhang (UCSD), Kai-Wei Chang (UCLA), Dong Yu (Tencent AI Lab)
一句话版本
LongMemEval 是 AI 长期记忆领域的标杆评测,ICLR 2025 接收论文。500 道题测试五大记忆能力——提取、多会话推理、知识更新、时间推理、弃权。Magi 的 87.2% 就出自这里。
核心内容
这是评测什么?
测试聊天助手的长期交互记忆。不是一问一答的"冷知识测试",而是构建一段有几十上百轮交互的对话历史,然后问一个需要从历史中挖掘信息的问题。
五种能力:
| 能力 | 说明 | 典型问题 |
|---|---|---|
| 信息提取 | 从大量对话中召回特定事实 | "用户上次提到的狗的名字是什么?" |
| 多会话推理 | 跨多个会话综合推断 | "用户在哪次会话中提过最想去的旅游目的地?" |
| 知识更新 | 识别用户信息的变化 | "用户的公司从腾讯跳到了阿里吗?" |
| 时间推理 | 基于时间戳和上下文的时间感知 | "用户是在去日本之前还是之后换了手机?" |
| 弃权 | 对未知信息主动拒绝回答 | 问一个历史中从未提及的事,AI 应说不知道 |
数据集规模
| 变种 | 大小 | 会话数 | tokens |
|---|---|---|---|
| LongMemEval_S | 500 题 | ~30-40 会话 | ~115K |
| LongMemEval_M | 500 题 | ~500 会话 | ~1.5M |
| LongMemEval_Oracle | 500 题 | 仅证据会话 | 极小 |
评测方法
用 GPT-4o 作为裁判(LLM-as-judge)评判模型的回答是否正确。自己评测只需在自己的模型上跑生成,然后跑 evaluate_qa.py 即可。
论文关键发现
1. 粒度最优解是 round(轮次),不是 session。进一步压缩成原子事实会损失整体精度,但能提升多会话推理
2. 用记忆值本身做扁平索引就是个强基线。用提取的用户事实扩展 key 能提升 recall@k 4%、准确率 5%
3. 简单的时间感知索引 + 查询扩展就能提升时间推理 7-11%
4. 即使召回完美,阅读理解仍不 trivial。Chain-of-Note + 结构化 JSON 提示能提升最多 10 个绝对百分点
排行榜(2026年5月)
| 系统 | 模型 | 总体 |
|---|---|---|
| 🥇 Mastra Observational Memory | gpt-5-mini | **94.87%** |
| 🥈 Mastra OM | gemini-3-pro | 93.27% |
| 🥉 Hindsight | gemini-3-pro | 91.40% |
| Mastra OM | gemini-3-flash | 89.20% |
| EmergenceMem Internal* | gpt-4o | 86.00%* |
| Supermemory | gemini-3-pro | 85.20% |
| **Magi** | 自研 L0-L4 | **87.2%** ⬆️ |
| Mastra OM | gpt-4o | 84.23% |
| Oracle | gpt-4o | 82.40% |
| Zep | gpt-4o | 71.20% |
| Full Context (原始 GPT-4o) | gpt-4o | 60.20% |
> *EmergenceMem Internal 不可复现
> ⚠️ 注意:不同系统的得分可能使用不同的 reader/actor 模型,直接对比不完全公平
其他公开分数:
- OMEGA (omegamax.co): 95.4% — 开源专用内存系统
- ByteRover: 92.8% — Context Tree 层级记忆
Magi 的 87.2% 怎么看?
Magi 的 87.2% 在排行榜中属于中上水平——远超原始 GPT-4o (60.2%)、Oracle (82.4%),也超过 Mastra OM gpt-4o (84.23%)。但落后于 Mastra OM gpt-5-mini (94.87%)、OMEGA (95.4%) 等使用更强推理模型的系统。
需要注意:Magi 是端到端桌面系统,不是在评测数据集上 fine-tune 过的论文系统。能跑出 87.2% 说明 L0-L4 记忆架构设计是有效的。
2026 年新动向
- LongMemEval-V2:扩展到 Agent 上下文(不仅仅是聊天历史),测试工具使用、多步骤任务中的长期记忆
- 商业化评测平台出现(OMEGA),分数可能会频繁更新
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 设计质量 | ⭐⭐⭐⭐⭐ | 覆盖五大记忆能力,设计严谨 |
| 影响力 | ⭐⭐⭐⭐⭐ | ICLR 2025,被 Mastra/OMEGA/Magi 等广泛引用 |
| 可复现 | ⭐⭐⭐⭐ | 开源数据集+评测脚本,但 LLM-as-judge 有波动 |
| 可扩展 | ⭐⭐⭐⭐⭐ | 支持自定义故事生成,可扩展任意难度 |
| 实用性 | ⭐⭐⭐⭐⭐ | 对 AI 记忆系统开发者的必测基准 |
综合评分:4.8 / 5.0 — 长期记忆领域的标杆评测。如果你是做 Agent 记忆系统的,这个评测是必选项。
项目关联
- Magi (今日研究):87.2%,L0-L4 记忆层架构
- Mastra OM:94.87%(gpt-5-mini),84.23%(gpt-4o),开源,Observational Memory 架构
- OMEGA:95.4%,专用内存系统,Apache 2.0
- ByteRover:92.8%,Context Tree 层级记忆
- 对 OpenClaw 的记忆/上下文管理功能有直接参考价值
链接
- GitHub: https://github.com/xiaowu0162/LongMemEval
- 项目页: https://xiaowu0162.github.io/long-mem-eval/
- 论文: https://arxiv.org/abs/2410.10813
- 数据集 (HuggingFace): https://huggingface.co/datasets/xiaowu0162/longmemeval-cleaned
- LongMemEval-V2 (Agent 上下文): https://github.com/xiaowu0162/LongMemEval-V2
- Mastra OM 技术报告: https://mastra.ai/research/observational-memory
- OMEGA 排行榜: https://omegamax.co/benchmarks
- ByteRover 博客: https://www.byterover.dev/blog/benchmark_ai_agent_memory_real_product_longmemeval
- 相关阅读:Magi 报告 https://temp.jaylab.io/magi-report.html