Karpathy 的 LLM Knowledge Base:用 AI 编译个人知识库

> 来源: 推文 + LLM Wiki Idea File (Gist) + 跟进推文

> 日期: 2026-04-02 (原始推文) / 2026-04-04 (Idea File Gist) / 2026-04-05 (报告更新)

> 作者: Andrej Karpathy(前 Tesla AI 总监,OpenAI 创始成员)

> 互动: 2.1 万赞 / 295 万浏览(原始推文)

🎯 一句话版本

Karpathy 发现:与其让 AI 帮你写代码,不如让 AI 帮你"编译知识"——把散乱的文章、论文、数据源丢进 raw/ 目录,LLM 自动生成一个互相链接的 Markdown Wiki,然后你可以对这个知识库做 Q&A、生成报告、做健康检查。

Karpathy 的完整工作流

架构图


原始数据源                    LLM "编译器"              输出 & 查看
──────────                   ───────────              ──────────
文章 ─┐                                               
论文 ─┤                    ┌──────────────┐           Obsidian
代码 ─┼─→ raw/ 目录 ──→   │  LLM Agent   │ ──→  .md Wiki
数据 ─┤                    │  (编译+维护)  │           ├── 概念文章
图片 ─┘                    └──────┬───────┘           ├── 摘要索引
                                  │                    ├── 反向链接
                           ┌──────┴───────┐           ├── Marp 幻灯片
                           │  Q&A / Lint  │           └── matplotlib 图
                           │  工具 + CLI   │
                           └──────────────┘
                                  ↑
                           查询结果回写 Wiki
                           (知识持续积累)

六个阶段详解

1. 数据摄入(Data Ingest)

- 对所有 raw/ 数据写摘要

- 分类为概念

- 为每个概念写文章

- 建立反向链接

关键洞察:他用了"编译"这个词——把非结构化数据"编译"成结构化知识,就像把源代码编译成可执行文件。

2. IDE(Obsidian 作为前端)

3. Q&A(知识库问答)

这是最反直觉的发现:Karpathy 原以为需要向量数据库 + RAG 管线,但发现在 ~400K 词的规模下,LLM 自己维护的索引 + 摘要就足够了。

4. 输出(多格式渲染)

- Markdown 文件

- Marp 幻灯片

- matplotlib 图表

5. Linting(知识库健康检查)

- 找不一致的数据

- 补全缺失数据(用搜索引擎)

- 发现有趣的关联,推荐新文章候选

6. 进阶探索

❓ "编译 Wiki"具体长什么样?

用一个具体例子说明 LLM 是怎么把 raw/ 数据"编译"成 Wiki 的。

输入:raw/ 目录

假设你在研究 Transformer 相关主题,raw/ 里有这些文件:


raw/
  paper-attention-is-all-you-need.md    ← Obsidian Web Clipper 抓的论文
  blog-karpathy-llm-os.md              ← 博客文章
  repo-notes-vllm.md                   ← GitHub README 笔记
  dataset-openwebtext-stats.md          ← 数据集统计
  screenshot-benchmark-results.png      ← 截图

输出:LLM 自动生成的 Wiki


wiki/
  concepts/
    transformer.md              ← 自动写的概念文章
    attention-mechanism.md      ← 自动提取的子概念
    tokenization.md
    inference-optimization.md
  summaries/
    _index.md                   ← 所有文档的一句话摘要索引
  people/
    karpathy.md                 ← 自动识别的人物
  projects/
    vllm.md                     ← 自动识别的项目

每篇 .md 内部的结构

transformer.md 为例:


# Transformer

## 概述
Transformer 是一种基于自注意力机制的神经网络架构...

## 关键组件
- [[attention-mechanism]]       ← 双向链接(Obsidian 点击可跳转)
- [[tokenization]]

## 相关论文
- 来源: [[raw/paper-attention-is-all-you-need]]
- 来源: [[raw/blog-karpathy-llm-os]]

## 相关项目
- [[vllm]] — 高效推理引擎

## 关键数据
- 参数规模: 65M (原始) → 70B+ (2024)
- 来源: [[raw/dataset-openwebtext-stats]]

LLM 做的三件核心事

操作说明
**摘要**每个 raw 文件自动生成一句话摘要,汇总到 `_index.md`
**分类**自动从原始数据中提取概念、人物、项目,分别建文章
**链接**用 `[[双括号]]` 格式建立文档间的交叉引用,形成知识图谱

"编译"的本质

就像 C 编译器把源代码 → 可执行文件:


源代码 (.c)  →  编译器  →  可执行文件 (.exe)
散乱数据 (raw/)  →  LLM  →  结构化 Wiki (wiki/)

每次新增 raw 文件,LLM 增量更新 Wiki(不是全部重写):新数据被摘要、分类、链接到已有的知识网络中。

为什么不需要 RAG?

因为 _index.md 就是一个"穷人版搜索引擎"——所有文档的一句话摘要都在一个文件里。LLM 查询时:

1. 先读 _index.md(几千词),找到相关文档

2. 再读相关文档全文

3. 综合回答

在 ~40 万词(约 500 页书)的规模下,这个策略完全够用。不需要向量数据库、不需要嵌入模型、不需要 Pinecone 或 Weaviate。

📄 Idea File:一种新的开源形式

推文爆火后(2.1 万赞),Karpathy 在 4 月 4 日发了跟进推文

> "Wow, this tweet went very viral! I wanted share a possibly slightly improved version of the tweet in an 'idea file'. The idea of the idea file is that in this era of LLM agents, there is less of a point/need of sharing the specific code/app, you just share the idea, then the other person's agent customizes & builds it for your specific needs."

这里面有一个深刻的洞察:在 Agent 时代,分享"想法"比分享"代码"更有用。

传统开源:分享 GitHub repo → 别人 clone → 配置 → 运行

Idea File 开源:分享一个 .md 文件 → 别人把它喂给自己的 Agent → Agent 按照本地环境自动实现

代码是具体的(你用 Obsidian + macOS + Claude Code,我用 VS Code + Linux + Codex),想法是可移植的。

Gist 完整架构

LLM Wiki Idea File 把推文的碎片整理成了完整的三层架构:


Layer 1: Raw Sources(原始数据)
  - 不可变的,LLM 只读不改
  - 这是 source of truth

Layer 2: The Wiki(知识库)
  - LLM 完全拥有的 markdown 文件目录
  - 摘要、实体页、概念页、比较、综述
  - LLM 负责创建、更新、维护交叉引用

Layer 3: The Schema(配置文件)
  - CLAUDE.md / AGENTS.md / 等
  - 告诉 LLM 怎么组织 Wiki
  - 人和 LLM 共同迭代

三个核心操作

操作说明效果
**Ingest**放入新 raw 文件 → LLM 读取、摘要、更新 Wiki一个新来源可能触碰 10-15 个 Wiki 页面
**Query**问问题 → LLM 搜索相关页面 → 综合回答好的回答可以归档回 Wiki
**Lint**健康检查 → 找矛盾、过时信息、孤儿页LLM 善于建议"下一步该问什么"

两个关键文件

推荐工具

工具用途
[qmd](https://github.com/tobi/qmd)本地 markdown 搜索引擎(BM25 + 向量 + LLM re-ranking),有 CLI 和 MCP server
Obsidian Web Clipper浏览器网页 → markdown
Obsidian Graph View可视化知识图谱
MarpMarkdown → 幻灯片
DataviewObsidian 插件,用 frontmatter 做查询
Git版本控制——Wiki 就是一个 git repo

Memex 引用

Karpathy 在 Gist 最后引用了 Vannevar Bush 的 Memex (1945)——一个个人策划的知识库,文档之间有"关联路径":

> "Bush's vision was closer to this than to what the web became: private, actively curated, with the connections between documents as valuable as the documents themselves. The part he couldn't solve was who does the maintenance. The LLM handles that."

80 年前的愿景,LLM 终于补上了那块拼图:谁来做维护

社区反应

VentureBeat 报道

VentureBeat 专门发了长文,标题直接点题:"Karpathy shares 'LLM Knowledge Base' architecture that bypasses RAG with an evolving markdown library maintained by AI"。

antigravity.codes 深度分析

antigravity.codes 称 Idea File 是"一种新型开源——不是开放代码,而是开放想法(open ideas),设计给 AI agent 来解读和实例化"。

Gist 评论区

Gist Discussion 区出现了多国语言的感谢和讨论,有人说"I often get lost between so many fields of interest because everything I synthesize is scattered across my iPad notes"——正是 Karpathy 要解决的问题。

为什么这条推文重要?

1. Karpathy 效应

21,000 赞、295 万浏览——Karpathy 是 AI 领域最有影响力的个人之一。他的工作流会被大量开发者模仿。

2. 范式转移信号

> "a large fraction of my recent token throughput is going less into manipulating code, and more into manipulating knowledge"

Karpathy 明确说:他把越来越多的 token 从写代码转向管理知识。这意味着 LLM 的主要用途正在从 "AI Coding" 扩展到 "AI Knowledge Management"。

3. RAG 不是万能药

在 ~400K 词(约 500 页书)的规模下,纯 Markdown + LLM 自维护索引就够了。不需要向量数据库、不需要嵌入模型、不需要 Pinecone/Weaviate。这对很多过度工程化 RAG 管线的团队是一个清醒的信号。

4. "编译知识"是新范式

把 LLM 当成"知识编译器"——输入是散乱的原始数据,输出是结构化的 Wiki——这个比喻非常精确。而且他强调 Wiki 是 LLM 的领地,人类几乎不编辑

我们正在做同样的事

这条推文读起来像是对我们 docs/deep-research/ 工作流的精确描述:

Karpathy 的做法我们的做法
`raw/` 目录存原始数据`docs/deep-research/raw/` 存原始抓取
LLM 编译成 .md WikiAI Agent 生成研究报告 (.md)
Obsidian 作为前端temp.jaylab.io 作为前端
查询结果回写 Wiki"补充到 doc" 更新已有报告
LLM 做健康检查(我们还没做,但应该做!)
索引文件 + 摘要jaylab.io 首页自动生成索引
Web Clipper 采集web_fetch + browser 抓取

区别

可以借鉴的改进

1. 知识库 Linting ⭐

我们有 270+ 篇报告但从没做过"健康检查"。可以让 Agent:

2. 自动索引 + 摘要

Karpathy 让 LLM 自动维护索引文件。我们的 build.py 已经做了静态索引,但可以加一层 LLM 生成的语义索引

3. 查询结果回写

目前我们的"补充到 doc"是手动触发的。可以自动化:Agent 的每次深度回答自动生成 appendix 附加到相关报告。

4. 合成数据 + 微调方向

Karpathy 提到的终极方向——用知识库生成训练数据来微调模型。配合 ub2 的 RTX 4090,我们有硬件条件做这件事(用 Qwen3.5 之类的模型做知识蒸馏)。

评分

维度分数说明
思想深度10/10"编译知识"范式极其精准,RAG 不必要的洞察很有价值
实用性9/10每一步都可以直接实操,不是空想
创新性7/10做法不新但把它说清楚了(很多人在做类似的事)
影响力10/102.1 万赞 + Karpathy 背书 = 行业级信号
与我们的相关性10/10我们的 deep-research 就是这个流程的实例
**综合****9.0/10**

关键链接

> 一句话总结:Karpathy 说出了很多人在做但没想清楚的事——LLM 最强的用途不只是写代码,而是"编译知识"。后续发布的 Idea File 把这个概念具体化为三层架构(Raw Sources → Wiki → Schema)+ 三个操作(Ingest → Query → Lint)。更深层的洞察是:在 Agent 时代,分享"想法"比分享"代码"更有用——Idea File 是一种新的开源形式。我们的 deep-research 工作流就是这个范式的活体实践。