谷歌偷偷开源了一个怪物，你的破电脑现在可以免费养一个AI助手了

📝

上周三，我在 Ollama 的社区群里刷到一条消息：有人把 Gemma4 的 E4B 版本跑在了一台 6G 显存的 3060 显卡上，速度还行，没有卡死。我当时的反应是——等等， Google 那个模型。Apache2。

原文链接：https://mp.weixin.qq.com/s/XKtScW2H4AClFwFFKG7I_g

谷歌开源Gemma4，Apache 2.0免费商用，Ollama 5分钟部署，普通显卡可用，帮你省下AI订阅费

上周三，我在 Ollama 的社区群里刷到一条消息：有人把 Gemma4 的 E4B 版本跑在了一台 6G 显存的 3060 显卡上，速度还行，没有卡死。

我当时的反应是——等等， Google 那个模型？ Apache2.0 ？真的可以随便用？整挺好？

然后我去翻了官方文档。

嗯。真的。

谷歌在今年 4 月 2 日发布了 Gemma4 ，这件事在 AI 圈里其实没太大水花——毕竟大模型发布消息太多， Gemma4 的关注度被分流了不少。但我觉得对普通人来说， Gemma4 的意义比大多数新发布的大模型都实用。

大多数大模型跟你有什么关系？你付钱用。 Gemma4 呢？你下下来，装在自己机器上，一分钱不花，数据不上传，永久免费。

这才是该关注的事。

它到底有多厉害？先把炒作剥掉

先说真实的情况，别被那些”媲美旗舰模型”的标题骗了。

老实说我最烦这种营销话术。你一个 4B 激活参数的开源模型媲美旗舰？媲美个锤子。

Gemma4 一共发布了四个尺寸： E2B （ 2.3B 参数）、 E4B （ 4.5B 参数）、 26B-A4B （ 26B 参数但 MoE 架构，实际激活只有 4B ）、 31B Dense 。听着乱，选起来其实不复杂——不对，我应该说得更准确一点，对大多数人来说不复杂：

大多数人只需要 E4B。

E4B 需要 6-8G 显存，或者 Mac 的 M 系列芯片。在 CSDN 上有人 4 月 9 日实测过， Windows 系统 + RTX 3060 ，部署正常，对话回复速度在普通任务上基本够用（不是那种出发去倒杯水再回来的速度）。

如果你是做内容创作、整理文档、写文案、翻译资料这类工作， E4B 完全够了。

但有一件事我不吐不快：它在中文上不是最强的选手，甚至有点不灵光。如果你的需求是中文写作为主，用 Qwen3 ，别犟。 Gemma4 的优势在于多模态能力和工具调用——它可以看图、可以理解音频、支持 128K 到 256K 的上下文窗口，用来整理长文档、分析图表、或者搭自动化工作流，才是真正发挥它的地方。

换句话说：Gemma4 不是最懂中文的模型，但它是本地跑起来功能最全的一个。

怎么装？说真的， 5 分钟搞定

我知道”教你部署 AI 模型”这类标题通常意味着你要在终端里和报错信息搏斗三个小时。说真的，我之前装过几个本地模型，每次都搞成了一个下午，各种 CUDA 版本不对、 Python 环境冲突、显卡驱动太老……那种感觉就是你想养条狗，结果先要自己盖个狗窝，盖完发现木材规格不对。

但 Gemma4 （准确说是 Ollama 这个工具）真的把这个过程搞平了。有点离谱地简单。

第一步：安装 Ollama

去 ollama.com 下载， Windows 有安装包， Mac 可以用 brew ， Linux 一行命令搞定：

1	`curl -fsSL https://ollama.com/install.sh \| sh`

装完就完了。打开就在后台运行，你不需要做任何配置。

第二步：拉模型

打开终端（ Windows 用 PowerShell ， Mac 用 Terminal ），敲一行：

1	`ollama pull gemma4:e4b`

它会自动下载，大概 2-3G ，看你网速。去泡杯茶。

第三步：跑起来

1	`ollama run gemma4:e4b`

然后就可以开始聊了。就这样。

我第一次跑的时候等了一下，以为什么地方不对。结果就是真的好了，光标在闪，等我发消息。

有点不真实。

没有独显能不能跑？聊聊边界情况

这个问题问的人多，我直接说结论：可以，但要做好心理准备。

如果你是 Mac 的 Apple Silicon （ M1/M2/M3 ），统一内存架构让本地跑模型效率出奇地好——M2 系列 16G 统一内存跑 E4B ，速度够用，很多人日常就用这个。

如果是 Windows 纯 CPU ， E2B 勉强能跑， E4B 就很慢了——那种每秒出 1-2 个字的速度，你的耐心会先崩。坐那儿等字一个个蹦出来，跟看着开水壶煮沸差不多，整个人都哑巴了。

如果你的机器是游戏本但显卡是 4G 以下的，我的建议是：先跑 E2B 试试感受。能接受速度就继续用，不能接受就换用云端工具。别为了”本地”这两个字折磨自己。说真的，有些人在 1060 显卡上死磕本地大模型，我看着都替他们累。

有一个坑我需要提一下——Ollama 默认会自动判断用 CPU 还是 GPU，但有时候会判断错，这个 bug 到现在还没完全修好（或者说他们压根没当成 bug ）。如果你明明有独显却感觉特别慢，试试在环境变量里设一下CUDA_VISIBLE_DEVICES=0，强制用 GPU 。这个坑有人踩过， 4 月 9 日在 CSDN 的实战帖里有人提到过，评论区一堆人在谢。

装完以后能用来干什么？这才是关键

部署好模型只是开始。本地 AI 真正值钱的地方，是它能让你做一些用云端工具很难做到的事。

场景一：处理有隐私顾虑的文件

公司的内部报告、合同草案、客户数据——这些东西你不一定愿意传到 OpenAI 或 Claude 的服务器上（哪怕他们说不会训练你的数据，你也不一定完全放心）。 Gemma4 在本地跑，数据不出你的电脑。这个优势是刚需，不是可有可无的。

场景二：搭个私人工作流

Ollama 跑起来之后会在本地开放一个 API 接口，地址是localhost:11434。任何能调 API 的工具都可以接上去——比如 n8n 、 Dify 、还有最近很多人在用的 Flowise 。你可以把 Gemma4 当成你自己的”后端大脑”，接上去搭自动化流程，比如：每天早上自动总结你的邮件、整理会议记录、帮你从一堆报告里提关键信息。

一次搭好，之后基本不用管。

场景三：搭一个本地知识库

Gemma4 支持 256K 超长上下文窗口，这意味着你可以把整本公司内部文档扔进去，让它直接回答你的问题——“上季度有没有提到过 XX 供应商？”、”合同里关于违约条款怎么说的？”。比自己翻快多了。

和付费工具比，差距在哪？

说实话。

Gemma4 E4B 和 Claude Sonnet 比，在复杂推理、微妙语感、长文创作上，还是有差距的。这没什么好藏着掖着的——参数量差了一个数量级，不可能打平，说能打平的要么没测过要么在骗你。

但”差一些”不代表”没用”。

用一个不那么优雅但准确的类比： Gemma4 E4B 就像你家里的微波炉， Claude Sonnet 是外面的米其林餐厅。日常热个饭你不需要去米其林，而且微波炉是你的， 24 小时随时用，不用排队不用花钱。

我觉得很多人对本地模型有一种怪异的执念，非要它样样都强才觉得值得装。这心态有点问题。工具本来就是按场景分工的，一把螺丝刀不能替代锤子，但你不会因此把螺丝刀扔掉。

你要做的不是用本地模型替换 Claude ，而是想清楚哪些任务用微波炉就够了，哪些值得去餐厅。

根据我用下来的体感（仅供参考，你的情况可能不一样）：
- 够用的场景：文档整理、资料检索、会议纪要、代码注释、简单翻译、格式转换
- 不够用的场景：需要大量创意写作、复杂逻辑推理、对中文语感要求很高的内容

把够用的场景转移到本地，省下来的成本去投在不够用的场景上，这是比较合理的分配方式。

行动清单

如果你看完想试试，照这个顺序来：

1.去 ollama.com 下载并安装 Ollama （ 5 分钟）

2.打开终端，执行 ollama pull gemma4:e4b（等下载完成）

3.执行 ollama run gemma4:e4b，发一条消息测试是否正常

4.如果跑起来了，想进一步玩：搜索”Ollama + Open WebUI”，可以给它装一个好看的聊天界面

5.如果速度太慢，先试 E2B 版本：ollama pull gemma4:e2b

要是碰到显卡不被识别的问题，优先检查一下显卡驱动版本——这是最高频的坑，通常更新驱动就解决了。

上个月我朋友给我说他每个月在各种 AI 工具上花了 600 块订阅费，然后问我值不值。

我说：你测试一下本地能跑什么，不能跑的才值得花钱。

他之后告诉我， 30%的任务本地就够了。

一个月省了大约 180 块。

这钱不多，但省下来买点别的不好吗。

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。