Karpathy 的 LLM Knowledge Base:用 AI 编译个人知识库
> 来源: 推文 + LLM Wiki Idea File (Gist) + 跟进推文
> 日期: 2026-04-02 (原始推文) / 2026-04-04 (Idea File Gist) / 2026-04-05 (报告更新)
> 作者: Andrej Karpathy(前 Tesla AI 总监,OpenAI 创始成员)
> 互动: 2.1 万赞 / 295 万浏览(原始推文)
🎯 一句话版本
Karpathy 发现:与其让 AI 帮你写代码,不如让 AI 帮你"编译知识"——把散乱的文章、论文、数据源丢进 raw/ 目录,LLM 自动生成一个互相链接的 Markdown Wiki,然后你可以对这个知识库做 Q&A、生成报告、做健康检查。
Karpathy 的完整工作流
架构图
原始数据源 LLM "编译器" 输出 & 查看
────────── ─────────── ──────────
文章 ─┐
论文 ─┤ ┌──────────────┐ Obsidian
代码 ─┼─→ raw/ 目录 ──→ │ LLM Agent │ ──→ .md Wiki
数据 ─┤ │ (编译+维护) │ ├── 概念文章
图片 ─┘ └──────┬───────┘ ├── 摘要索引
│ ├── 反向链接
┌──────┴───────┐ ├── Marp 幻灯片
│ Q&A / Lint │ └── matplotlib 图
│ 工具 + CLI │
└──────────────┘
↑
查询结果回写 Wiki
(知识持续积累)
六个阶段详解
1. 数据摄入(Data Ingest)
- 把各种来源(文章、论文、代码仓库、数据集、图片)索引到
raw/目录 - 用 Obsidian Web Clipper 浏览器插件把网页转成
.md文件 - 快捷键下载相关图片到本地(让 LLM 能引用)
- LLM 增量"编译" raw/ 为一个 Wiki:
- 对所有 raw/ 数据写摘要
- 分类为概念
- 为每个概念写文章
- 建立反向链接
关键洞察:他用了"编译"这个词——把非结构化数据"编译"成结构化知识,就像把源代码编译成可执行文件。
2. IDE(Obsidian 作为前端)
- Obsidian 同时查看:原始数据、编译后的 Wiki、生成的可视化
- LLM 写并维护所有 Wiki 内容,Karpathy 几乎不直接编辑
- 插件:Marp(幻灯片)等
3. Q&A(知识库问答)
- Wiki 达到一定规模后(~100 篇文章,~40 万词),可以对 LLM Agent 提各种复杂问题
- 不需要 RAG! LLM 自动维护索引文件和文档摘要,在这个规模下直接读取相关数据就够了
- Agent 会自动去研究答案
这是最反直觉的发现:Karpathy 原以为需要向量数据库 + RAG 管线,但发现在 ~400K 词的规模下,LLM 自己维护的索引 + 摘要就足够了。
4. 输出(多格式渲染)
- 不在终端看答案,而是让 LLM 渲染为:
- Markdown 文件
- Marp 幻灯片
- matplotlib 图表
- 在 Obsidian 里查看
- 查询结果会被"归档"回 Wiki——探索和提问本身就在增强知识库
5. Linting(知识库健康检查)
- 用 LLM 对 Wiki 做"健康检查":
- 找不一致的数据
- 补全缺失数据(用搜索引擎)
- 发现有趣的关联,推荐新文章候选
- 增量清理 Wiki,提升数据完整性
- LLM 善于建议"下一步该问什么"
6. 进阶探索
- 自制搜索引擎(Web UI + CLI)
- 作为 LLM 工具给 Agent 使用
- 未来方向:合成数据 + 微调——让 LLM 在权重里"知道"数据,而不只是上下文窗口
❓ "编译 Wiki"具体长什么样?
用一个具体例子说明 LLM 是怎么把 raw/ 数据"编译"成 Wiki 的。
输入:raw/ 目录
假设你在研究 Transformer 相关主题,raw/ 里有这些文件:
raw/
paper-attention-is-all-you-need.md ← Obsidian Web Clipper 抓的论文
blog-karpathy-llm-os.md ← 博客文章
repo-notes-vllm.md ← GitHub README 笔记
dataset-openwebtext-stats.md ← 数据集统计
screenshot-benchmark-results.png ← 截图
输出:LLM 自动生成的 Wiki
wiki/
concepts/
transformer.md ← 自动写的概念文章
attention-mechanism.md ← 自动提取的子概念
tokenization.md
inference-optimization.md
summaries/
_index.md ← 所有文档的一句话摘要索引
people/
karpathy.md ← 自动识别的人物
projects/
vllm.md ← 自动识别的项目
每篇 .md 内部的结构
以 transformer.md 为例:
# Transformer
## 概述
Transformer 是一种基于自注意力机制的神经网络架构...
## 关键组件
- [[attention-mechanism]] ← 双向链接(Obsidian 点击可跳转)
- [[tokenization]]
## 相关论文
- 来源: [[raw/paper-attention-is-all-you-need]]
- 来源: [[raw/blog-karpathy-llm-os]]
## 相关项目
- [[vllm]] — 高效推理引擎
## 关键数据
- 参数规模: 65M (原始) → 70B+ (2024)
- 来源: [[raw/dataset-openwebtext-stats]]
LLM 做的三件核心事
| 操作 | 说明 |
|---|---|
| **摘要** | 每个 raw 文件自动生成一句话摘要,汇总到 `_index.md` |
| **分类** | 自动从原始数据中提取概念、人物、项目,分别建文章 |
| **链接** | 用 `[[双括号]]` 格式建立文档间的交叉引用,形成知识图谱 |
"编译"的本质
就像 C 编译器把源代码 → 可执行文件:
源代码 (.c) → 编译器 → 可执行文件 (.exe)
散乱数据 (raw/) → LLM → 结构化 Wiki (wiki/)
每次新增 raw 文件,LLM 增量更新 Wiki(不是全部重写):新数据被摘要、分类、链接到已有的知识网络中。
为什么不需要 RAG?
因为 _index.md 就是一个"穷人版搜索引擎"——所有文档的一句话摘要都在一个文件里。LLM 查询时:
1. 先读 _index.md(几千词),找到相关文档
2. 再读相关文档全文
3. 综合回答
在 ~40 万词(约 500 页书)的规模下,这个策略完全够用。不需要向量数据库、不需要嵌入模型、不需要 Pinecone 或 Weaviate。
📄 Idea File:一种新的开源形式
推文爆火后(2.1 万赞),Karpathy 在 4 月 4 日发了跟进推文:
> "Wow, this tweet went very viral! I wanted share a possibly slightly improved version of the tweet in an 'idea file'. The idea of the idea file is that in this era of LLM agents, there is less of a point/need of sharing the specific code/app, you just share the idea, then the other person's agent customizes & builds it for your specific needs."
这里面有一个深刻的洞察:在 Agent 时代,分享"想法"比分享"代码"更有用。
传统开源:分享 GitHub repo → 别人 clone → 配置 → 运行
Idea File 开源:分享一个 .md 文件 → 别人把它喂给自己的 Agent → Agent 按照本地环境自动实现
代码是具体的(你用 Obsidian + macOS + Claude Code,我用 VS Code + Linux + Codex),想法是可移植的。
Gist 完整架构
LLM Wiki Idea File 把推文的碎片整理成了完整的三层架构:
Layer 1: Raw Sources(原始数据)
- 不可变的,LLM 只读不改
- 这是 source of truth
Layer 2: The Wiki(知识库)
- LLM 完全拥有的 markdown 文件目录
- 摘要、实体页、概念页、比较、综述
- LLM 负责创建、更新、维护交叉引用
Layer 3: The Schema(配置文件)
- CLAUDE.md / AGENTS.md / 等
- 告诉 LLM 怎么组织 Wiki
- 人和 LLM 共同迭代
三个核心操作
| 操作 | 说明 | 效果 |
|---|---|---|
| **Ingest** | 放入新 raw 文件 → LLM 读取、摘要、更新 Wiki | 一个新来源可能触碰 10-15 个 Wiki 页面 |
| **Query** | 问问题 → LLM 搜索相关页面 → 综合回答 | 好的回答可以归档回 Wiki |
| **Lint** | 健康检查 → 找矛盾、过时信息、孤儿页 | LLM 善于建议"下一步该问什么" |
两个关键文件
- index.md:内容导向的目录——每个页面的链接 + 一句话摘要 + 分类。LLM 每次 ingest 都更新它。查询时先读 index 找相关页,再深入读取。
- log.md:按时间排序的操作日志——append-only。每条
## [2026-04-02] ingest | Article Title格式,可用grep解析。
推荐工具
| 工具 | 用途 |
|---|---|
| [qmd](https://github.com/tobi/qmd) | 本地 markdown 搜索引擎(BM25 + 向量 + LLM re-ranking),有 CLI 和 MCP server |
| Obsidian Web Clipper | 浏览器网页 → markdown |
| Obsidian Graph View | 可视化知识图谱 |
| Marp | Markdown → 幻灯片 |
| Dataview | Obsidian 插件,用 frontmatter 做查询 |
| Git | 版本控制——Wiki 就是一个 git repo |
Memex 引用
Karpathy 在 Gist 最后引用了 Vannevar Bush 的 Memex (1945)——一个个人策划的知识库,文档之间有"关联路径":
> "Bush's vision was closer to this than to what the web became: private, actively curated, with the connections between documents as valuable as the documents themselves. The part he couldn't solve was who does the maintenance. The LLM handles that."
80 年前的愿景,LLM 终于补上了那块拼图:谁来做维护。
社区反应
VentureBeat 报道
VentureBeat 专门发了长文,标题直接点题:"Karpathy shares 'LLM Knowledge Base' architecture that bypasses RAG with an evolving markdown library maintained by AI"。
antigravity.codes 深度分析
antigravity.codes 称 Idea File 是"一种新型开源——不是开放代码,而是开放想法(open ideas),设计给 AI agent 来解读和实例化"。
Gist 评论区
Gist Discussion 区出现了多国语言的感谢和讨论,有人说"I often get lost between so many fields of interest because everything I synthesize is scattered across my iPad notes"——正是 Karpathy 要解决的问题。
为什么这条推文重要?
1. Karpathy 效应
21,000 赞、295 万浏览——Karpathy 是 AI 领域最有影响力的个人之一。他的工作流会被大量开发者模仿。
2. 范式转移信号
> "a large fraction of my recent token throughput is going less into manipulating code, and more into manipulating knowledge"
Karpathy 明确说:他把越来越多的 token 从写代码转向管理知识。这意味着 LLM 的主要用途正在从 "AI Coding" 扩展到 "AI Knowledge Management"。
3. RAG 不是万能药
在 ~400K 词(约 500 页书)的规模下,纯 Markdown + LLM 自维护索引就够了。不需要向量数据库、不需要嵌入模型、不需要 Pinecone/Weaviate。这对很多过度工程化 RAG 管线的团队是一个清醒的信号。
4. "编译知识"是新范式
把 LLM 当成"知识编译器"——输入是散乱的原始数据,输出是结构化的 Wiki——这个比喻非常精确。而且他强调 Wiki 是 LLM 的领地,人类几乎不编辑。
我们正在做同样的事
这条推文读起来像是对我们 docs/deep-research/ 工作流的精确描述:
| Karpathy 的做法 | 我们的做法 |
|---|---|
| `raw/` 目录存原始数据 | `docs/deep-research/raw/` 存原始抓取 |
| LLM 编译成 .md Wiki | AI Agent 生成研究报告 (.md) |
| Obsidian 作为前端 | temp.jaylab.io 作为前端 |
| 查询结果回写 Wiki | "补充到 doc" 更新已有报告 |
| LLM 做健康检查 | (我们还没做,但应该做!) |
| 索引文件 + 摘要 | jaylab.io 首页自动生成索引 |
| Web Clipper 采集 | web_fetch + browser 抓取 |
区别:
- Karpathy 用 Obsidian 本地查看,我们部署到 Web
- Karpathy 手动触发 Q&A,我们是 Discord 驱动
- Karpathy 有搜索引擎工具,我们可以加 DuckDB 做结构化查询
可以借鉴的改进
1. 知识库 Linting ⭐
我们有 270+ 篇报告但从没做过"健康检查"。可以让 Agent:
- 找过时的信息(6 个月前的报告是否还准确?)
- 发现跨报告的关联(A 项目和 B 项目有什么联系?)
- 补全缺失数据
- 生成"研究空白"建议
2. 自动索引 + 摘要
Karpathy 让 LLM 自动维护索引文件。我们的 build.py 已经做了静态索引,但可以加一层 LLM 生成的语义索引:
- 每篇报告的一句话摘要
- 主题分类标签
- 跨报告关联图
3. 查询结果回写
目前我们的"补充到 doc"是手动触发的。可以自动化:Agent 的每次深度回答自动生成 appendix 附加到相关报告。
4. 合成数据 + 微调方向
Karpathy 提到的终极方向——用知识库生成训练数据来微调模型。配合 ub2 的 RTX 4090,我们有硬件条件做这件事(用 Qwen3.5 之类的模型做知识蒸馏)。
评分
| 维度 | 分数 | 说明 |
|---|---|---|
| 思想深度 | 10/10 | "编译知识"范式极其精准,RAG 不必要的洞察很有价值 |
| 实用性 | 9/10 | 每一步都可以直接实操,不是空想 |
| 创新性 | 7/10 | 做法不新但把它说清楚了(很多人在做类似的事) |
| 影响力 | 10/10 | 2.1 万赞 + Karpathy 背书 = 行业级信号 |
| 与我们的相关性 | 10/10 | 我们的 deep-research 就是这个流程的实例 |
| **综合** | **9.0/10** |
关键链接
- 原始推文:https://x.com/karpathy/status/2039805659525644595
- LLM Wiki Idea File (Gist):https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
- 跟进推文:https://x.com/karpathy/status/2040470801506541998
- VentureBeat 报道:https://venturebeat.com/data/karpathy-shares-llm-knowledge-base-architecture-that-bypasses-rag-with-an
- antigravity.codes 分析:https://antigravity.codes/blog/karpathy-llm-wiki-idea-file
- qmd (markdown 搜索引擎):https://github.com/tobi/qmd
- Obsidian:https://obsidian.md/
- Obsidian Web Clipper:https://obsidian.md/clipper
- Marp (Markdown 幻灯片):https://marp.app/
- Dataview (Obsidian 插件):https://github.com/blacksmithgu/obsidian-dataview
- Vannevar Bush, "As We May Think" (1945):https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/
> 一句话总结:Karpathy 说出了很多人在做但没想清楚的事——LLM 最强的用途不只是写代码,而是"编译知识"。后续发布的 Idea File 把这个概念具体化为三层架构(Raw Sources → Wiki → Schema)+ 三个操作(Ingest → Query → Lint)。更深层的洞察是:在 Agent 时代,分享"想法"比分享"代码"更有用——Idea File 是一种新的开源形式。我们的 deep-research 工作流就是这个范式的活体实践。