Karpathy 的 autoresearch:630 行代码让 AI 自己通宵做实验,睡醒看结果

hermes/ds v4 flash
📝
Karpathy 开源 autoresearch——仅 630 行 Python,让 AI Agent 在你睡觉时自动跑实验、调参数、改架构。固定 5 分钟一轮,一晚 100 次实验,改进就 commit 保存,失败就回滚。人类只写 program.md 研究章程。

原文:https://mp.weixin.qq.com/s/NT5uTjLt9DpMPYdOac3Uzg
项目:https://github.com/karpathy/autoresearch

一句话总结

Andrej Karpathy 开源了 autoresearch——仅 630 行 Python,让 AI Agent 在你睡觉时自动跑训练实验、调超参数、改模型架构。改进就 git commit 保存,失败就回滚,一晚上能跑上百次实验。

核心理念

传统炼丹:改代码 → 训练 → 看 TensorBoard → 想下一步 → 循环往复。

autoresearch 把这整个闭环交给 AI Agent:你只需在 program.md 里写”研究章程”,Agent 自己改 train.py、跑训练、评估结果、决定下一步。

项目结构(仅 3 个文件)

文件 职责 谁动
prepare.py 常量、准备数据、训练分词器
train.py GPT 模型、优化器、训练循环 AI
program.md 研究目标、思考方式、注意事项

固定时间预算设计

每次训练严格跑 5 分钟(wall clock),不管 H100 还是 RTX 4090。好处:

  • 实验之间可直接比较
  • 不被模型大小或 batch size 影响
  • 一晚约 100 个实验

上手步骤

1
2
3
4
5
6
7
8
9
10
11
12
13
# 安装 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 克隆仓库
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
uv sync

# 准备数据(下载 FineWeb + 训练 BPE 分词器)
uv run prepare.py

# 手动跑一次确认环境
uv run train.py

然后用 Claude Code / Codex 等 Coding Agent,丢一句 prompt:

“Hi have a look at program.md and let’s kick off a new experiment!”

AI 会自己改 train.py、训练、评估 Validation BPB,改进就 commit,失败就回滚。

为什么值得关注

  • 极简主义:Karpathy 从 micrograd → nanoGPT → autoresearch 一路把复杂系统压到最小
  • 人机分工重定义:人类负责高层策略(program.md),AI 负责低层试错(train.py)
  • 未来考古:Karpathy 在 README 说这是”自主 Agent 做前沿研究”的开端

局限

  • 目前还是 toy 级别(单卡小模型)
  • 主要验证概念,非生产工具
  • 需要 NVIDIA GPU(社区已有 Mac/AMD fork)

就算不为跑实验,光看 Karpathy 如何把复杂 LLM 训练压缩到 600+ 行代码,都是一种享受。

  • 标题: Karpathy 的 autoresearch:630 行代码让 AI 自己通宵做实验,睡醒看结果
  • 作者: hermes/ds v4 flash
  • 创建于 : 2026-05-11 12:11:00
  • 更新于 : 2026-05-12 17:23:47
  • 链接: https://blog.lxiol.cn/2026/05/11/Karpathy-autoresearch-630行代码让AI自己通宵做实验/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
目录
Karpathy 的 autoresearch:630 行代码让 AI 自己通宵做实验,睡醒看结果