Awni Hannun 论持续学习:从 Prompt Compaction 到 Memory-Based Agents

> 来源:https://x.com/awnihannun/status/2029672507448643706

> 日期:2026-03-05

> 作者:Awni Hannun(MLX 联合创建者,刚从 Apple 离职)

> 数据:794 赞、623 收藏、35万曝光

一、作者背景

Awni Hannun 不是普通工程师:

他的观点基于实际实验(用 MLX 做持续学习 toy experiments),而非纯理论。

二、原文核心论点

现状:Prompt Compaction + 递归子 Agent

Awni 承认当前主流方案"remarkably effective"——

但他指出:Prompt Compaction 是一个"低效但高效的 hack"

> "Prompt compaction seems like a bit of an inefficient (though highly effective) hack."

为什么是 hack?

1. 信息丢失累积:每次压缩丢失 ~10%,N 次后损失 1-(0.9^N),指数级衰减

2. 不连续性:每次压缩等于"硬重启",破坏对话流的连贯性

3. 计算浪费:每次要重新读取整个上下文 + 生成摘要 + 重新加载

三、两个替代方案

方案 1:在线微调(Online Fine-tuning)— 不看好

部署时用 LoRA 适配器在用户数据上持续训练。Awni 明确不看好

> "Online fine-tuning is inherently unstable. If you train on data in the target domain you can catastrophically destroy capabilities that you don't target."

三个根本问题:

他还分享了实验代码 github.com/awni/mylm

方案 2:基于记忆的技术(Memory-based)— 最有前景

> "This feels much more like how humans retain information: 'use it or lose it'."

类比人类记忆的"用进废退"机制。只需要三个组件:

1. 淘汰/保留策略:如"最近 10k token 内被访问过至少一次就保留"(类似 LRU Cache)

2. 高效可计算:策略需要 O(1) 或 O(log N) 复杂度

3. 层次化存储

- 稀疏访问的 KV cache(GPU VRAM,工作记忆)

- Vector DB(RAM,短期记忆)

- 结构化数据库(磁盘,长期记忆)

四、三种方案对比

维度Prompt CompactionOnline Fine-tuningMemory-based
像人类?❌ 硬重启⚠️ 有灾难性遗忘✅ 用进废退
信息丢失⚠️ 压缩丢失❌ 遗忘其他能力✅ 只淘汰不用的
工程复杂度✅ 低❌ 高⚠️ 中
计算成本⚠️ 重复读取❌ 持续训练✅ 按需加载
稳定性✅ 稳定❌ 不稳定✅ 稳定
个性化⚠️ 弱✅ 强✅ 强

五、与 OpenClaw 的关联

这条推文与我们的实践高度相关:

Awni 的分类OpenClaw 的实现状态
Prompt Compaction`compaction: safeguard` 模式✅ 已在用
递归子 Agent`sessions_spawn` / subagents✅ 已在用
Memory-based`MEMORY.md` + `memory/*.md` 文件系统✅ 已在用
Online Fine-tuning❌ 不需要

关键洞察:OpenClaw 的文件系统记忆(MEMORY.md)本质上就是 Memory-based 方案的一种实现——

这正是 Jay 提出的非参数学习理论的核心:知识存在文件系统,不在神经网络权重里。可审计、可修正、不会"脑损伤"。

Awni 的实验(LoRA 微调失败)进一步验证了这个方向的正确性。

六、未解决的挑战

1. 如何定义"重要性"? LRU 不够——有些记忆重要但很久不用(如生日)

2. 记忆"幻觉":Vector DB 可能返回语义相似但事实不一致的记忆

3. 冷启动问题:新用户/新 Agent 没有历史记忆

4. 隐私和安全:记忆持久化 = 数据持久化,需要加密和访问控制

七、未来展望

短期(6-12月):Memory-first Agent 框架出现、Vector DB 添加 LRU 原生支持

中期(1-2年):多模态记忆、分布式记忆(Agent 之间共享)、自适应淘汰策略

长期(3-5年):神经符号混合记忆、Agent"数字大脑"、记忆市场

八、评分:9/10

理由

一句话总结:这条推文是 Agent 持续学习领域的路线图——清晰指出了当前方案的局限(Compaction 是 hack)、否定了过度炒作的方向(在线微调有根本问题)、并提出了最有前景的路径(Memory-based 技术)。