llm Wiki 养了三周，开始出毛病了

📝

上次说，转发即沉淀

原文链接：https://mp.weixin.qq.com/s/Zoqc9uizk6NsGgAW3ItOTw

上次说，转发即沉淀。飞轮转起来了。转了三周。wiki/ 目录下多了六十几个页面。index.md 越来越长。

上次说，转发即沉淀。飞轮转起来了。

转了三周。

wiki/ 目录下多了六十几个页面。index.md 越来越长。log.md 记了上百条操作。

看起来一切正常。

直到有一天，我问了一个问题。AI 给了一个很自信的回答。引用了三个 wiki 页面。

我顺手点进去看了一眼。

其中一个页面里的数字，和原始文章里的不一样。

原文写的是 47.2%。wiki 页面写的是”接近一半”。

不算错。但也不算对。

又翻了几个页面。发现类似的情况不止一处。有的是数字被四舍五入了。有的是一个有前提条件的结论，前提被省略了。有的是两篇文章说了不同的事，wiki 页面只保留了其中一个。

每一处偏差都很小。但它们在互相引用。A 页面引用了 B 页面的结论，B 页面引用了 C 页面的数据。链条越长，偏差越大。

而 AI 每次回答都很自信。因为 wiki 页面之间是一致的。

只是和原始文档不一致了。

这就是知识漂移。

Karpathy 的 Gist 评论区里，有人分享了一模一样的经历。他们让 AI 生成摘要，把摘要当知识源。健康检查每次都通过——因为检查只验证摘要之间是否一致，不验证摘要是否还忠于原文。几个月后才发现，系统已经”自信地犯错”了很久。

想了想。这个问题不是 bug。是所有”AI 写的东西当作知识”的系统都会遇到的结构性问题。

AI 生成的摘要是有损压缩。每次更新都可能引入微小偏差。偏差不会自己消失。只会在互相引用中放大。

三个毛病，三个解法

用了三周，我遇到了三个毛病。知识漂移只是其中一个。

毛病一：漂移。 Wiki 页面和原始文档慢慢脱节。上面说了。

毛病二：孤岛。 有些页面写完就没人引用了。它们存在，但不在任何知识链条里。等于死了。

毛病三：找不到。 Wiki 超过五十页之后，AI 开始”忘记”早期的内容。不是真的忘了，是 index.md 太长，AI 在里面找东西的效率变低了。

三个毛病，对应三个解法。

解法一：给 Wiki 加溯源

漂移的根源是什么？是 wiki 页面里的事实，和原始文档之间断了链。

解法很简单。每个关键事实后面，标注来源的具体位置。

不是标注”来自 raw/xxx.md”。是标注”来自 raw/xxx.md 第 42-45 行”。

1 2	`该公司营收"10.3 亿元"。 — raw/annual-report.md, L128`

这样做有两个好处。

第一，你自己检查的时候，一秒钟就能跳到原文验证。

第二，AI 做健康检查的时候，可以自动对比 wiki 页面里的事实和原文是否一致。不是检查 wiki 页面之间的一致性——那个没用。是检查 wiki 页面和 raw/ 之间的一致性。

在 AGENTS.md 里加一条规则：

1 2	`数字、百分比、具体结论，必须原文引用并标注来源行号。不要用 AI 的话重述数字。`

这条规则很小。但它是防漂移的第一道防线。

解法二：定期体检

Karpathy 原文里提到了 Lint 操作。但只说了”定期让 AI 检查 wiki 健康状况”，没有说具体检查什么。

用了三周之后，我觉得体检至少要查五件事。

矛盾。 同一个事实在不同页面上说法不同。

过时。 raw/ 里的素材更新了，但对应的 wiki 页面没更新。

孤岛。 没有任何其他页面链接到的页面。

断链。 引用了一个不存在的页面。

漂移。 随机抽几个摘要页面，逐条对比原始文档。

前四个是常规体检。第五个是深度体检。

常规体检每周做一次。对 AI 说”体检”就行。

深度体检每月做一次。对 AI 说：

1	`深度体检：随机抽 5 个摘要页面，逐条对比原始文档`

AI 会读摘要，读原文，逐条比对，报告偏差，然后修复。

这是防漂移的最后一道防线。

解法三：给 Wiki 加搜索

index.md 是 Karpathy 设计里的导航核心。AI 每次回答问题，先读 index.md，找到相关页面，再深入读取。

这在 wiki 小的时候很好用。但超过五十页之后，index.md 本身就占了很多 token。AI 在里面”找东西”的效率开始下降。

Gist 评论区里有人做了一个实验。1602 个素材，生成了 161 个 wiki 页面。到 150 页左右的时候，他发现自己已经不看 index.md 了——改用 Obsidian 的图谱视图导航。

图谱视图的好处是直觉。哪些页面是枢纽（被大量引用），哪些是孤岛（没有链接），一眼就看到。

但 AI 看不到图谱视图。它需要一个搜索工具。

Karpathy 推荐了 qmd[1]。本地 Markdown 搜索引擎，BM25 + 向量混合搜索，全部在本地跑。有 CLI 和 MCP Server 两种模式。MCP 模式下 AI Agent 可以直接调用。

如果不想装额外工具，一个简单的 grep 脚本也够用：

1	`grep -ril "$1" ~/my-wiki/wiki/ \| head -20`

关键不是用什么工具。关键是：当 wiki 大到 index.md 装不下的时候，你需要一个 AI 能调用的搜索入口。否则 AI 会开始”忘记”早期的知识。不是真的忘了。是找不到了。

评论区里最精彩的一段话

Gist 评论区吵得很凶。有人说 LLM Wiki 是天才设计，有人说它根本不能用。

但最精彩的一段话，来自一个叫 @gulliveruk 的开发者。他说：

❝
确定范围应该是确定性的，推理应该是概率性的。

什么意思？

当你问”哪些页面和这个问题相关”，这个”找范围”的操作应该是精确的。用标签过滤、用元数据查询、用搜索引擎检索。不应该让 AI 去”猜”。

AI 应该做的是：在已经精确筛选出的小范围内，做推理和综合。

把”找”和”想”分开。找的部分交给确定性工具。想的部分交给 AI。

这可能是 LLM Wiki 下一步进化的方向。wiki 页面依然是人类可读的知识层。但在它旁边，需要一层确定性的检索结构——标签、元数据、搜索索引，甚至知识图谱。

AI 不再从 index.md 里”猜”哪些页面相关。而是从检索层里”查”到相关页面，然后只在这些页面上做推理。

还有一件事

Gist 发出三周。5000+ star。近 5000 fork。

但 Karpathy 自己没有发布任何产品。没有代码。没有工具。只有一个 idea file。

社区长出了几十个实现。有人做了 Obsidian 插件。有人做了 macOS 桌面应用。有人做了 Claude Code Skill。有人把它接到了微信。有人把它用在了客户管理。有人把它用在了军事条令。

一个想法，没有代码，5000 star。

想了想。这本身就是 LLM Wiki 思路的一个证明。

Karpathy 没有写代码。他写了一份 Schema。一份告诉别人”这个系统应该怎么组织”的规则文档。

然后让整个社区当他的 Agent，去执行这份 Schema。

和 LLM Wiki 里 AI 的角色一模一样。

人定规则。Agent 执行。知识复利。

只不过这次，Agent 是几千个开发者。

想了想

第一篇说，用完不忘。

第二篇说，转发即沉淀。

这一篇想说的是：养 Wiki 和养花一样。不是种下去就完了。得浇水，得除草，得定期检查根有没有烂。

AI 是园丁。它可以浇水、除草、修枝。

但种什么花，开什么园，哪棵该留哪棵该剪——还是你说了算。

Karpathy 在 Gist 里写了一句很清醒的话：Human owns verification。

LLM 可以维护 wiki。但最终验证的责任还是在人。

三周前我搭了一个 wiki。三周后我学会了怎么养它。

下一步，大概是学会怎么让它长得更大而不失控。

但那是下一篇的事了。

参考资料：Karpathy llm-wiki.md gist[2] · Gist 评论区讨论[3] · 从 Karpathy 的第二大脑到 Entropy[4] · OpenWiki 桌面实现[5] · qmd 本地搜索引擎[6] · RAG 还是学习？连续知识漂移下的 LLM 适应极限[7]

Reference

[1]
qmd: https://github.com/tobi/qmd
[2]
Karpathy llm-wiki.md gist: https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
[3]
Gist 评论区讨论: https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f?permalink_comment_id=6109752[#gistcomment]()-6109752
[4]
从 Karpathy 的第二大脑到 Entropy: https://trilogyai.substack.com/p/from-karpathys-second-brain-to-entropy
[5]
OpenWiki 桌面实现: https://github.com/kdsz001/OpenWiki
[6]
qmd 本地搜索引擎: https://github.com/tobi/qmd
[7]
RAG 还是学习？连续知识漂移下的 LLM 适应极限: https://arxiv.org/html/2604.05096v1

下方是赋能君的AI学习交流永久免费星球，想学习更多内容，欢迎扫码加入。

🙌 如果你阅读到这里，说明我们对信息的认可区域是有一定交集的，可以说我们是同道中人，所以如果你有自认为不错的信息获取渠道，欢迎留言或者私聊我，谢谢。

都看到这里了，就给个关注吧👀：

喜欢我的文章，可以请你右下角顺手来一波点赞&在看&分享三连么👉

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。