lxiol 博客

—title: 71k Star 炸裂！Karpathy 新作 autoresearch：让 AI 替你做研究，你只管睡觉
date: 2026-04-27 20:56:56
summary: title: 71k Star 炸裂。Karpathy 新作 autoresearch：让 AI 替你做研究，你只管睡觉 date: 2026-04-27 20:56:56 summary:
tags:

Claude Code
Codex
AI Agent
Git
开源
macOS
Python
LLM
微信转载
categories:
转载—

原文链接：https://mp.weixin.qq.com/s/mdWXaBVCWAubxOZaYV4azw

睡一觉醒来，AI 已经跑了 100 个实验，模型还变好了。这不是科幻，这是 Karpathy 刚开源的项目。

前言

2026 年 3 月，Andrej Karpathy——前 Tesla AI 负责人、OpenAI 联合创始人、深度学习领域最具影响力的布道者——在 GitHub 上开源了一个名为 autoresearch的项目。

项目 README 的开头，他写了一段让人脊背发凉的“未来史诗”：

“曾经，前沿 AI 研究由‘肉体计算机’完成，它们需要在吃饭、睡觉和享乐之间挤出时间，偶尔通过‘声波互联’同步信息——人类把这种仪式称为‘组会’。那个时代已经一去不复返了。如今，研究完全属于在天空中计算集群上自主运行的 AI 智能体蜂群。这些智能体声称代码库已经到了第 10,205 代，但没人能判断这是否属实，因为‘代码’已经变成了一个超越人类理解范围的自修改二进制程序。这个 repo，就是一切开始的地方。”

这段文字像一则预言，精准戳中了整个 AI 社区最敏感的神经——AI 做研究这件事，到底走到哪一步了？

项目上线几天后，GitHub Star 数直接飙到 71k,Fork 超过 10.4k。

autoresearch 到底在做什么？

抛开科幻叙事，autoresearch 的核心想法其实简单到优雅：

给 AI 一个真实的 LLM 训练环境，让它自主实验——修改代码、训练 5 分钟、看结果有没有变好，保留或丢弃，然后重复。你去睡觉，早上醒来看实验日志。

训练代码基于 Karpathy 自己的 nanochat 项目（一个单 GPU 简化版 LLM 训练框架）。整个 repo 刻意保持极简——只有三个核心文件。

三个文件，就是全部

`prepare.py`— 数据准备（只读）

负责一次性工作：下载训练数据、训练 BPE 分词器，以及提供运行时工具（数据加载器、评估函数）。AI 智能体不能修改这个文件。评估指标 val_bpb（验证集 bits per byte）被锁定，确保没有实验能“作弊”。

`train.py`— AI 的“实验室”

包含完整的 GPT 模型定义、优化器（Muon + AdamW）和训练循环。这个文件的一切都是 AI 可以修改的：模型架构、超参数、优化器选择、batch size、模型深度……想改什么就改什么。

`program.md`— 人类写的“研究纲领”

这是最有意思的一个文件。它是用纯 Markdown 写的 AI 智能体指令手册——告诉 AI 如何思考、优先尝试什么、怎么运行实验循环。

这就是 Karpathy 一直在说的“Software 3.0”的具象化：你交付的不是 Python 代码，而是一份自然语言文档，用它来编排 AI 智能体的行为。

人类不再写 train.py，人类写 program.md。

实验循环：每 5 分钟一个迭代

AI 智能体进入实验循环后，按照以下步骤无限重复：

第一步，读取 program.md获取指令和上下文。

第二步，查看当前 train.py的状态和 git 历史，了解已经尝试过什么。

第三步，提出假设——也许提高学习率，也许换一个激活函数，也许尝试更激进的架构变更。

第四步，直接编辑 train.py，将修改提交到一个 git 分支，然后运行训练脚本。

第五步，训练跑满 固定 5 分钟（墙钟时间，不含启动/编译），脚本输出结果摘要，核心指标就是 val_bpb——越低越好。

第六步,AI 读取结果，记录到 results.tsv。如果新的 val_bpb 比之前最佳值更低，保留修改；如果更差，git reset回退到上一个好的状态，换个方向再试。

然后循环。永远不停。

program.md里有一条关键指令：”永远不要停下来。实验循环一旦开始，不要暂停来问人类是否应该继续。“

按每个实验 5 分钟计算，一小时大约 12 个实验，睡一觉大约 100 个实验。

为什么固定 5 分钟？这是天才设计

很多人第一反应是“5 分钟能训练出什么？”但这恰恰是 autoresearch 最精妙的设计决策之一：

公平对比——无论 AI 怎么改（小模型大 batch 还是大模型少 step），墙钟时间成本完全一样，实验之间直接可比。

自动适配硬件——系统会自然地发现在你的特定 GPU 上、5 分钟内能达到最优性能的模型配置。H100 和 RTX 4090 会找到各自不同的最优解。

快速反馈——5 分钟一轮意味着 AI 可以在一夜之间积累比人类研究者一周手动实验更多的经验数据。迭代速度的复利效应是巨大的。

没有框架！这才是最颠覆的地方

当大多数人听到“AI 智能体编排”时，想到的是 LangGraph、CrewAI、AutoGen 这些框架——状态机、有向图、工具注册表、多智能体协调层……

autoresearch 一个都没有。

整个编排逻辑就是一个 Markdown 文件。没有状态图，没有工具 Schema，没有路由逻辑，没有 Supervisor Agent。“编排框架”就是 LLM 本身——它读指令、理解指令、执行计划。

“智能体循环”不是用 Python 实现的，是用英语实现的。

智能体的上下文窗口就是状态机。Markdown 文档就是工作流定义。Git 就是版本控制和回滚机制。文件系统就是持久化层。

这是 Karpathy 在押注的方向：随着 LLM 越来越强大，编排 AI 行为的正确抽象不是一个 DAG 框架，而是一份写得好的文档。

为什么 autoresearch 能 work？

这个项目之所以有效，背后有几个环环相扣的设计智慧：

1. 目标函数完全无歧义

val_bpb 就是一个数字，越低越好。AI 不需要猜测实验是否成功，没有主观评估，没有委员会评审，没有任何模糊地带。这是整个项目最重要的设计决策——它把研究从一个开放性的创造活动，变成了一个定义清晰的优化问题。

2. 反馈循环又快又便宜

5 分钟一个实验，信号来得极快。一夜 100 个实验积累的经验数据，可能比很多人类研究者一周的手动实验还多。

3. 范围被严格约束

AI 只能编辑一个文件，不能安装新包，不能修改评估工具。这些约束不是限制，而是特性——它们防止 AI 跑偏、刷指标或迷失在指数级膨胀的行动空间里。约束产生创造力。

4. Git 提供完美的记忆和撤销

每个实验都是一次 commit，每个失败都可以干净回滚。AI 不需要外部记忆系统或向量数据库——git 就是它的记忆。

5. 简洁性偏好

program.md内置了一个关键原则：一点点微小的改进如果引入了丑陋的复杂性，不值得保留；但在保持性能的同时删除代码，永远是一个胜利。这防止了代码无限膨胀。

Quick Start：怎么跑起来？

**硬件要求：**一块 NVIDIA GPU（H100 上测试过），Python 3.10+，uv 包管理器。

1

2

3

4

5

6

7

8

9

10

11

# 1. 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
 
# 2. 安装依赖
uv sync
 
# 3. 下载数据 + 训练分词器（一次性,约 2 分钟）
uv run prepare.py
 
# 4. 手动跑一次训练验证环境
uv run train.py

环境跑通后，把你的 AI 编码智能体（Claude Code、Codex CLI 等）指向 program.md，然后……去睡觉。

社区生态：已经爆发

项目开源不到一个月，社区已经自发涌现了大量衍生：

Apple Silicon 移植版— 用 MLX 替代 PyTorch/CUDA，让 MacBook M 系列也能跑自主研究
Windows RTX 移植版— 针对消费级显卡的适配
Slurm/HPC 集群版— 在超算上并行运行多个 Agent
超过 130 个 Pull Requests— 社区贡献的各种优化和扩展
10.4k Fork 意味着全球上万人已经在自己的 GPU 上复现了这个实验——这本身就是一个前所未有的“分布式 AI 研究”现象。

更深的思考：这意味着什么？

对 AI 研究者来说

autoresearch 不是要取代研究者，而是改变了研究者的工作内容。你不再是那个在 train.py里调超参数的人，你变成了写 program.md的人——一个设计研究策略、编排 AI 行为的“研究总监”。

这是一个从“动手做实验”到“设计实验框架”的角色跃迁。

对 AI 工程来说

autoresearch 证明了一件事：**最好的智能体编排可能就是没有编排框架。**一份写得好的自然语言指令，在足够强的 LLM 面前，可以替代大量的工程基础设施。

这不意味着 LangGraph 这类框架没有价值——在生产环境、多智能体协作、可观测性需求下，框架仍然不可或缺。但对于一个范围明确、目标清晰的任务，框架可能是多余的。

对整个领域来说

Karpathy README 开头那段“科幻预言”可能没有看起来那么遥远。当 AI 可以自主进行假设→实验→验证的循环，而且做得越来越好时，我们离“AI 研究 AI”的未来就越来越近。

autoresearch 只是“一切开始的地方”。

写在最后

Karpathy 的项目有一种独特的魅力：它们总是极简到近乎粗暴，但每一次都精准地戳中了一个时代级的命题。

从 nanoGPT 到 nanochat，再到现在的 autoresearch——他不是在做一个产品，他是在用最少的代码提出最大的问题。

autoresearch 提出的问题是：

如果让 AI 自己做研究，会发生什么？

71k Star 是全世界对这个问题的投票。答案正在被全球上万块 GPU 同时书写。

📌 项目信息一览

项目

信息

🏷️ 项目名称

autoresearch

👨‍💻 作者

Andrej Karpathy

⭐ Star 数

71k+

🍴 Fork 数

10.4k+

📝 许可证

开源

🔗 GitHub

github.com/karpathy/autoresearch

🖥️ 硬件要求

单块 NVIDIA GPU

⏱️ 单次实验

固定 5 分钟

📊 核心指标

val_bpb（验证集 bits per byte）

📄 核心文件

prepare.py + train.py + program.md

互动话题：你觉得“AI 自己做研究”这件事，是即将改变游戏规则的里程碑，还是一个有趣但有限的实验？欢迎在评论区分享你的看法！

觉得有启发，点「赞」+「在看」，转发给你身边关注 AI 前沿的朋友！🙏

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。

前言