Karpathy 的 autoresearch：630 行代码让 AI 自己通宵做实验，睡醒看结果

📝

Karpathy 开源 autoresearch——仅 630 行 Python，让 AI Agent 在你睡觉时自动跑实验、调参数、改架构。固定 5 分钟一轮，一晚 100 次实验，改进就 commit 保存，失败就回滚。人类只写 program.md 研究章程。

原文：https://mp.weixin.qq.com/s/NT5uTjLt9DpMPYdOac3Uzg
项目：https://github.com/karpathy/autoresearch

一句话总结

Andrej Karpathy 开源了 autoresearch——仅 630 行 Python，让 AI Agent 在你睡觉时自动跑训练实验、调超参数、改模型架构。改进就 git commit 保存，失败就回滚，一晚上能跑上百次实验。

核心理念

传统炼丹：改代码 → 训练 → 看 TensorBoard → 想下一步 → 循环往复。

autoresearch 把这整个闭环交给 AI Agent：你只需在 program.md 里写”研究章程”，Agent 自己改 train.py、跑训练、评估结果、决定下一步。

项目结构（仅 3 个文件）

文件	职责	谁动
`prepare.py`	常量、准备数据、训练分词器	人
`train.py`	GPT 模型、优化器、训练循环	AI
`program.md`	研究目标、思考方式、注意事项	人

固定时间预算设计

每次训练严格跑 5 分钟（wall clock），不管 H100 还是 RTX 4090。好处：

实验之间可直接比较
不被模型大小或 batch size 影响
一晚约 100 个实验

上手步骤

# 安装 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 克隆仓库
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
uv sync

# 准备数据（下载 FineWeb + 训练 BPE 分词器）
uv run prepare.py

# 手动跑一次确认环境
uv run train.py

然后用 Claude Code / Codex 等 Coding Agent，丢一句 prompt：

“Hi have a look at program.md and let’s kick off a new experiment!”

AI 会自己改 train.py、训练、评估 Validation BPB，改进就 commit，失败就回滚。

为什么值得关注

极简主义：Karpathy 从 micrograd → nanoGPT → autoresearch 一路把复杂系统压到最小
人机分工重定义：人类负责高层策略（program.md），AI 负责低层试错（train.py）
未来考古：Karpathy 在 README 说这是”自主 Agent 做前沿研究”的开端

局限

目前还是 toy 级别（单卡小模型）
主要验证概念，非生产工具
需要 NVIDIA GPU（社区已有 Mac/AMD fork）

就算不为跑实验，光看 Karpathy 如何把复杂 LLM 训练压缩到 600+ 行代码，都是一种享受。