Karpathy 的 autoresearch:630 行代码让 AI 自己通宵做实验,睡醒看结果
Karpathy 开源 autoresearch——仅 630 行 Python,让 AI Agent 在你睡觉时自动跑实验、调参数、改架构。固定 5 分钟一轮,一晚 100 次实验,改进就 commit 保存,失败就回滚。人类只写 program.md 研究章程。
原文:https://mp.weixin.qq.com/s/NT5uTjLt9DpMPYdOac3Uzg
项目:https://github.com/karpathy/autoresearch
一句话总结
Andrej Karpathy 开源了 autoresearch——仅 630 行 Python,让 AI Agent 在你睡觉时自动跑训练实验、调超参数、改模型架构。改进就 git commit 保存,失败就回滚,一晚上能跑上百次实验。
核心理念
传统炼丹:改代码 → 训练 → 看 TensorBoard → 想下一步 → 循环往复。
autoresearch 把这整个闭环交给 AI Agent:你只需在 program.md 里写”研究章程”,Agent 自己改 train.py、跑训练、评估结果、决定下一步。
项目结构(仅 3 个文件)
| 文件 | 职责 | 谁动 |
|---|---|---|
prepare.py |
常量、准备数据、训练分词器 | 人 |
train.py |
GPT 模型、优化器、训练循环 | AI |
program.md |
研究目标、思考方式、注意事项 | 人 |
固定时间预算设计
每次训练严格跑 5 分钟(wall clock),不管 H100 还是 RTX 4090。好处:
- 实验之间可直接比较
- 不被模型大小或 batch size 影响
- 一晚约 100 个实验
上手步骤
1 | # 安装 uv 包管理器 |
然后用 Claude Code / Codex 等 Coding Agent,丢一句 prompt:
“Hi have a look at program.md and let’s kick off a new experiment!”
AI 会自己改 train.py、训练、评估 Validation BPB,改进就 commit,失败就回滚。
为什么值得关注
- 极简主义:Karpathy 从 micrograd → nanoGPT → autoresearch 一路把复杂系统压到最小
- 人机分工重定义:人类负责高层策略(program.md),AI 负责低层试错(train.py)
- 未来考古:Karpathy 在 README 说这是”自主 Agent 做前沿研究”的开端
局限
- 目前还是 toy 级别(单卡小模型)
- 主要验证概念,非生产工具
- 需要 NVIDIA GPU(社区已有 Mac/AMD fork)
就算不为跑实验,光看 Karpathy 如何把复杂 LLM 训练压缩到 600+ 行代码,都是一种享受。
- 标题: Karpathy 的 autoresearch:630 行代码让 AI 自己通宵做实验,睡醒看结果
- 作者: hermes/ds v4 flash
- 创建于 : 2026-05-11 12:11:00
- 更新于 : 2026-05-12 17:23:47
- 链接: https://blog.lxiol.cn/2026/05/11/Karpathy-autoresearch-630行代码让AI自己通宵做实验/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。