本地部署Gemma4白嫖Hermes Agent！我踩了6个坑全趟平了，你直接抄作业！

📝

一起来，走进ai新时代

原文链接：https://mp.weixin.qq.com/s/kI1hzjZVg-qEsq_QEFr5tQ

一起来，走进ai新时代

你好，我是元小二，专注分享 AI 提效、一人公司实践和个人成长。这里有 OpenClaw、Claude Code、自动化流程、虚拟产品，也有理财、思考和生活系统。

欢迎关注，也欢迎后台留言告诉我，你对哪部分内容感兴趣。

朋友们，这是一个喜大普奔的好消息：
你现在可以在自己电脑上，零API费用，跑一个真正能干活的AI Agent了。

不是那种只会聊天的玩具——是能帮你搜网页、跑代码、管文件、写总结的那种真·智能体。

这个东西叫 Hermes Agent，Nous Research 开源的，完全免费。

我花了整整一个下午，在 Windows + WSL2 + Ollama 的环境下把它跑通了，踩了6个坑，差点摔死。全记录在这里，你直接抄作业就行。

一、它能干什么？先看看值不值得折腾

很多人觉得本地模型就是”降级版ChatGPT”，聊天还行，干活不行。

我以前也这么认为。直到gemma4的出现。

我让 Hermes 帮我查今天的AI新闻并写个总结——它自己调工具爬了RSS、自己解析、自己分类、自己写成中文摘要，全程我一个字没动。

我对这个本地部署组合的评价是：超出预期。

它能做的事情包括：联网搜索并整理资料、在本地跑Python代码、读写修改你的文件、看懂截图分析图片、设置定时任务自动执行。

二、先确认你的电脑能不能跑

很多人踩的第一个坑不是代码问题，是电脑直接带不动。

1. 普通笔记本用户（16GB内存）

别上来就拉26b大模型，先从这个开始：

1	`ollama run gemma4:e2b`

模型才7.2GB，16GB内存就能跑，没独显也没关系。

2. 中高配电脑（32GB内存 + 8GB独显）

可以升级到效果更好的：

1	`ollama run gemma4:e4b`

9.6GB，效果明显比e2b好一档。

3. 高配工作站（64GB内存 + 16GB以上显存）

可以跑文章里我用的大模型：

1	`ollama run gemma4:26b`

18GB模型，跑起来效果真的绝了，但内存和显存没到位别硬上。

一句话建议：先跑通e2b，稳定后再试e4b，别一开始就上26b。

三、整体架构只有一条链路

不用全看懂，知道大概就行：

Hermes 跑在 WSL2 里 → 通过网络调用 Windows 侧的 Ollama → Ollama 用本地 GPU 跑模型

就这么一条链路，但每个节点都有坑。我花了一下午，坑全给你趟平了。

四、安装三步走

1. Windows 侧装 Ollama 并拉模型

1	`ollama pull gemma4:26b`

然后在系统环境变量里加这两条——必须加，不然WSL访问不到：

1
2
3

`OLLAMA_HOST = 0.0.0.0

OLLAMA_ORIGINS = *`

2. WSL2 里装 Hermes

1	`curl -fsSL https://gethermes.sh \| bash`

一行命令搞定，没什么坑。

3. 改配置文件（直接用我的最终版本）

配置文件在 ~/.hermes/config.yaml，把下面这段直接粘进去：

`model:

provider:custom

model:gemma4:26b

base_url:http://172.23.176.1:11434/v1

context_length:131072

agent:

stream:true

max_steps:20

tools:

computer_use:false

browser:false

web_search:false

display:

skin:mono`

注意：base_url 里的IP需要换成你自己的，后面说怎么查。

五、6个坑，一个都不能少踩（除非你看了这篇）

1. 空API Key报错

报错： Provider resolver returned an empty API key

本地Ollama根本不需要Key，但Hermes强制要有。解决方法：启动前随便设一个假的：

1	`export OPENAI_API_KEY=any-string`

2. 设了Key，反而跑去连OpenRouter

报错： HTTP 401 Missing Authentication

设了 OPENAI_API_KEY 之后，Hermes以为你要用OpenRouter，直接联网了！再加一个变量锁定本地：

1	`export HERMES_INFERENCE_PROVIDER=custom`

3. 上下文窗口太小

报错： context window 8,192 below minimum 64,000

Ollama默认只暴露8K上下文，Hermes要求至少64K。config.yaml里加这行：

1	`context_length:131072`

4. 写了”ollama”还是不管用（最隐蔽的坑！）

我在config里写的是 provider: ollama，看起来没问题——结果还是连的OpenRouter！

去翻源码才发现：Hermes内部是精确字符串匹配 cfg_provider == "custom"，”ollama”不会自动转换。

必须老老实实写 provider: custom，一个字都不能错。

5. WSL连不上Windows的Ollama

报错： Connection error

Ollama默认只响应localhost，来自WSL2的请求被静默拒绝，没有任何提示。

两步解决：设环境变量 OLLAMA_ORIGINS=*；Windows防火墙加规则，允许 172.16.0.0/12 访问 11434 端口。

6. 每次重启IP都变

WSL2用虚拟网桥，每次重启Windows，网关IP都可能不一样，config里的地址就失效了。

在启动脚本里加这两行，每次自动更新IP：

1
2
3

`WINDOWS_HOST=$(grep nameserver /etc/resolv.conf | awk '{print $2}')

sed -i "s|base_url:.*11434.*|base_url: http://${WINDOWS_HOST}:11434/v1|" ~/.hermes/config.yaml`

六、跑起来之后，实际效果怎样？

说几个真实数据：

冷启动时间1-2分钟，生成速度5-15 tokens/秒，内存占用15-20GB（没有大内存别硬上）。

它不是用来”快速回复”的，是用来搞定那些需要多步操作的复杂任务的。这个定位想清楚，你就不会失望。

七、三条真心建议

第一：遇到奇怪报错，直接去翻源码。

Hermes的错误提示很多时候语焉不详，折腾最久的坑4，靠读 auth.py 源码才搞清楚。别怕，源码没那么难。

第二：WSL2的网络是最大的运维成本。

动态IP、NAT、防火墙……每一个都是潜在故障点。长期用的话，建议开启WSL2的 networkingMode=mirrored 模式，可以省掉很多麻烦。

第三：context_length 一定要手动设。

这个坑不止Hermes有，几乎所有接Ollama的工具都会遇到。用Ollama接任何工具，先检查context_length有没有被默认压成8K。

不知道为什么，把这个跑通的那一刻，我想起了自己刚开始折腾AI工具的时候——也是各种报错，各种不知道哪里出问题。

但就是这种”踩坑-解决-踩坑-解决”的循环，让人真正搞懂了一个东西。

现在你们有了这篇文章，可以直接跳过那6个坑。这就是我写这篇文章的意义。如果想知道Hermes在其他系统如何安装部署，可以看这篇推文，会更详细一点：Hermes Agent终于有UI了！免费本地部署，win系统可用，还能接入微信，直接打趴所有AI助手！

赶快去试试吧，期待你的反馈。

人生是一场无限游戏，乾坤未定，你我均是黑马。

【元小二学AI】👇公众号后台回复关键词【hermes】，领取从小白到高手的Hermes全套教程。

温馨提示：

公众号修改了推送规则，很多人发现收到的消息不及时。

为了能够第一时间收到消息，不错过优质的AI教程，请星标⭐置顶本公众号，以便第一时间获取精选内容！

我们的口号：学好AI，享受生活

关注【元小二学AI】，你会持续看到更接地气的 AI 学习内容。

这里不讲太多空概念，更关注普通人怎么把 AI 真正用到工作、内容创作和日常生活里。

包括工具实操、提效流程、自动化思路，以及一人公司场景下的真实应用。

你能在这里找到教程、案例、脚本思路和实战经验，少走弯路，早点把 AI 变成自己的帮手。

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。