无限Token香麻了！12G显存本地部署开源Qwen3.6-35B，仅需5步带你结合hermes搭建本地全能助手！

📝

ts-bench得分毫不夸张地说，Qwen3.6绝对是你目前能本地部署到消费级硬件

原文链接：https://mp.weixin.qq.com/s/CUUolfaJT0ppwalZpSSTYg

ts-bench得分毫不夸张地说，Qwen3.6绝对是你目前能本地部署到消费级硬件

ts-bench得分

毫不夸张地说，Qwen3.6绝对是你目前能本地部署到消费级硬件上的最强模型。

因为Qwen3.6-35B-A3B是MoE（混合专家）架构，虽然总参数是 35B，但每次对话其实只会激活大概3B的“专家参数”，相当于你实际跑的是一个“超大号 3B 模型”。

Qwen3.6搭配5种agent跑ts-bench，全满分通关，速度直接对标Claude 4.6/Opus 4.6，和闭源顶流同梯队，对比前代3.5-27B速度直接翻了3倍！开源大模型，这次真的支棱起来了！只能说太夯了！

这么强的模型，要是能为我们所用岂不是妙哉，所以我将它部署到了本地，并接入了hermes，你也可以将它接入各种小龙虾，实现本地养虾！

当然由于我配置有限（我的配置如下），所以我选择部署Q4量化过的模型，损失一部分精度，会损失多少不知道，先跑起来再说：

我电脑配置

首先模型是用的由Abiray用llama.cpp量化过的Qwen3.6-35B-A3B-Q4_K_M-GGUF模型，经过量化后的模型对消费级硬件和CPU密集环境更友好，再加上Qwen3.6支持原生高达 256K 的超长上下文窗口，特别适合用来养虾以及玩hermes等对上下文有一定门槛要求的agent，由于模型是用llama量化的，所以我们原汤化原食，直接用llama本地调用Qwen3.6-35B-A3B-Q4_K_M-GGUF这个模型来为我们服务。

话不多说，直接进入部署流程

一、安装llama.cpp

-
-

1	`#llama仓库地址``https://github.com/ggml-org/llama.cpp`

安装llama.cpp特别简单，win+r输入cmd打开命令提示符，然后输入官方给的代码，程序就会自动开始下载安装啦，大家看好自己是什么系统复制对应代码就好啦

-
-

`#安装代码``#下面这行代码是window系统用的安装代码，通过winget全局安装``winget install llama.cpp``#Homebrew (Mac and Linux)``brew install llama.cpp``#MacPorts (Mac)``sudo port install llama.cpp``#Nix (Mac and Linux)``nix profile install nixpkgs#llama-cpp`

二、下载Qwen模型

-
-

1	`#模型仓库地址``https://huggingface.co/Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF`

依然win+r输入cmd打开命令提示符，然后输入

-
-

1	`#输入这串指令下载模型``llama-server -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M`

就会自动开始下载这个模型啦，大小20G，文件会自动下载到这个位置：

-
-

1	`#模型位置``C:\Users\你的用户名\.cache\huggingface\hub`

三、启动模型

等下载进度到达100%，直接在当前提示符窗口输入下面这串指令唤醒你的Qwen模型。

-
-

1	`#启动命令``llama-cli -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M`

觉得在命令提示符窗口和大模型对话不习惯也不用怕，当前llama.cpp有官方WebUi界面，输入下面这串指令就可以唤起llama的原生WebUi界面：

1	`llama-server -m "C:\Users\用户名\.cache\huggingface\hub\models--Abiray--Qwen3.6-35B-A3B-Q4_K_M-GGUF\snapshots\bc632873d7807c59c965b69c4e979626240aedee\Qwen3.6-35B-A3B-Q4_K_M.gguf" --webui`

当看到server is listening on http://127.0.0.1:8080，就代表启动成功了，可以复制http://127.0.0.1:8080到浏览器打开，也可以按住ctrl+鼠标左键单击这个地址，就会自动打开浏览器跳转了。

启动后的界面

左边界面是历史对话，还可以安装MCP Servers，并且支持对话的导入/导出。

支持上下文导出

四、安装hermes agent

hermes agent与openclaw的差异就是以轻量化、自我学习进化为亮点，安装也很轻松，直接运行下列指令就可以安装到本地

-
-

1	`#安装命令``curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh \| bash`

安装好先别急着启动，官方要求刷新当前终端的配置，所以得先运行一遍source ~/.bashrc，接着再运行hermes的启动指令：hermes

-
-

1	`source ~/.bashrc # reload shell (or: source ~/.zshrc)``hermes # start chatting!`

五、配置hermes agent

5.1供应商选择

第一次启动会让你设置模型供应商和api，我们选择Custom endpoint，会让你填一个本地接口地址“API base URL”，不要急，跟着我的步骤做很快就能拿到结果。

本地模型选择Custom endpoint

5.2输入本地模型接口地址

由于hermes是运行在wsl虚拟机上，我们的llama是运行在端机上，所以二者相当于有一层防火墙，是的，即便是在同一台电脑上，也有网络隔离，所以我们不能直接输入刚才llama默认的接口地址（http://127.0.0.1:8080），我们需要输入端机的地址，也就是我们电脑的网络IPv4地址，这个地址很简单就可以获取，win+r输入cmd，打开命令提示符窗口，窗口内输入ipconfig，就能看到你电脑的IPv4地址啦。

5.3改变llama监听地址和端口豁免

由于llama.cpp的server.exe默认监听127.0.0.1（仅 Windows自己能连），WSL属于外部网络，永远连不上，必须手动改成监听所有网络0.0.0.0。

所以咱需要把llama的监听地址改成0.0.0.0，ctrl+c退出刚才的llama提示符窗口（或者你也可以点右上角的x)，输入这串指令启动llama调用Qwen模型

-
-

`#输入这串指令将以0.0.0.0为监听地址启动llama并加载大模型``llama-server -m "C:\Users\用户名\.cache\huggingface\hub\models--Abiray--Qwen3.6-35B-A3B-Q4_K_M-GGUF\snapshots\bc632873d7807c59c965b69c4e979626240aedee\Qwen3.6-35B-A3B-Q4_K_M.gguf" --port 8080 --host 0.0.0.0 -c 131072 --webui`

-
-

`#参数说明``-m:模型地址``--port:固定使用8080，和hermes匹配``--host：固定填0.0.0.0，允许WSL外部网络访问``-c 131072：上下文长度131K，由于hermes最低要求64K上下文长度，配置带不动可以酌情调低``--webui：可选参数，调用可视化web界面，这里不调用也行，因为我们要在hermes中调用大模型`

不知道模型地址怎么填的话，可以参照我的模型路径找到你本地的模型文件后右键复制文件地址

建议使用“显示更多选项”里面的复制文件地址

输入后llama能正常对话就说明启动成功，这个命令提示符窗口就不能关了，关了服务就停了，我们后面hermes就调不到模型了。

接着我们让防火墙给我们放行8080这个端口

直接在开始菜单里面搜索防火墙打开防火墙和网络保护

进入高级设置

在入站规则新建规则

规则类型选择端口，点击下一步，然后特定本地端口输入8080，再点击下一步，规则名称可以取：llama.cpp8080，就可以完成保存了。

好了，这时候我们就可以回到5.1这一步，API base URL就填写你的IPv4地址加上我们刚才豁免的端口，我的地址是下面这个你可以参照下👇

-
-

1	`#API base URL地址``http://192.168.0.139:8080``#参数解释：``#http://192.168.0.139是5.2这一步你获取到的你本地网络IPv4地址``#8080固定不变`

填写好url之后还会让你输入一个api key，由于我们是本地模型没有这个，但是也得输，不能为空，所以随便输什么都行，输入123就行，最后还会让你填一个模型名称，填Qwen3.6-35B-A3B-Q4_K_M.gguf就行。这些都填完之后hermes就会启动啦。

启动成功的界面

向hermes问个好，第一次由于hermes启动时会先加载上万字超长系统提示词（75 个工具定义、Agent 规则、思考逻辑、上下文约束），模型会在后台预处理、消化这一整段超长初始化Prompt之后再回答你的问题，这个时间因配置而异吧，我等了大概5min，hermes才回复我。另外我的配置跑起来的平均token是30t/s，大家也可以分享晒晒自己本地运行的速度，内存大的应该更快。以及还有一些cpu+gpu协调的参数调整可以加快运行速度，待我研究研究。

至于hermes为什么会叫我陛下，是因为我在他的soul文件里给他拟定了身份，你们也可以在soul文件给他下规则，定义他的人格，毕竟谁不想当一把皇帝呢，尤其是现在咱用上了qwen3.6-35B模型，皇粮管饱！

hermes的soul文件地址

1	`"\\wsl.localhost\Ubuntu\home\用户名\.hermes\SOUL.md"`

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。