谷歌偷偷开源了一个怪物,你的破电脑现在可以免费养一个AI助手了

lxiol
📝
上周三,我在 Ollama 的社区群里刷到一条消息:有人把 Gemma4 的 E4B 版本跑在了一台 6G 显存的 3060 显卡上,速度还行,没有卡死。我当时的反应是——等等, Google 那个模型。Apache2。

原文链接:https://mp.weixin.qq.com/s/XKtScW2H4AClFwFFKG7I_g

谷歌开源Gemma4,Apache 2.0免费商用,Ollama 5分钟部署,普通显卡可用,帮你省下AI订阅费

上周三,我在 Ollama 的社区群里刷到一条消息:有人把 Gemma4 的 E4B 版本跑在了一台 6G 显存的 3060 显卡上,速度还行,没有卡死。

我当时的反应是——等等, Google 那个模型? Apache2.0 ?真的可以随便用?整挺好?

然后我去翻了官方文档。

嗯。真的。

谷歌在今年 4 月 2 日发布了 Gemma4 ,这件事在 AI 圈里其实没太大水花——毕竟大模型发布消息太多, Gemma4 的关注度被分流了不少。但我觉得对普通人来说, Gemma4 的意义比大多数新发布的大模型都实用。

大多数大模型跟你有什么关系?你付钱用。 Gemma4 呢?你下下来,装在自己机器上,一分钱不花,数据不上传,永久免费。

这才是该关注的事。

它到底有多厉害?先把炒作剥掉

先说真实的情况,别被那些”媲美旗舰模型”的标题骗了。

老实说我最烦这种营销话术。你一个 4B 激活参数的开源模型媲美旗舰?媲美个锤子。

Gemma4 一共发布了四个尺寸: E2B ( 2.3B 参数)、 E4B ( 4.5B 参数)、 26B-A4B ( 26B 参数但 MoE 架构,实际激活只有 4B )、 31B Dense 。听着乱,选起来其实不复杂——不对,我应该说得更准确一点,对大多数人来说不复杂:

大多数人只需要 E4B

E4B 需要 6-8G 显存,或者 Mac 的 M 系列芯片。在 CSDN 上有人 4 月 9 日实测过, Windows 系统 + RTX 3060 ,部署正常,对话回复速度在普通任务上基本够用(不是那种出发去倒杯水再回来的速度)。

如果你是做内容创作、整理文档、写文案、翻译资料这类工作, E4B 完全够了。

但有一件事我不吐不快:它在中文上不是最强的选手,甚至有点不灵光。如果你的需求是中文写作为主,用 Qwen3 ,别犟。 Gemma4 的优势在于多模态能力工具调用——它可以看图、可以理解音频、支持 128K 到 256K 的上下文窗口,用来整理长文档、分析图表、或者搭自动化工作流,才是真正发挥它的地方。

换句话说:Gemma4 不是最懂中文的模型,但它是本地跑起来功能最全的一个

怎么装?说真的, 5 分钟搞定

我知道”教你部署 AI 模型”这类标题通常意味着你要在终端里和报错信息搏斗三个小时。说真的,我之前装过几个本地模型,每次都搞成了一个下午,各种 CUDA 版本不对、 Python 环境冲突、显卡驱动太老……那种感觉就是你想养条狗,结果先要自己盖个狗窝,盖完发现木材规格不对。

但 Gemma4 (准确说是 Ollama 这个工具)真的把这个过程搞平了。有点离谱地简单。

第一步:安装 Ollama

去 ollama.com 下载, Windows 有安装包, Mac 可以用 brew , Linux 一行命令搞定:

1
`curl -fsSL https://ollama.com/install.sh | sh`

装完就完了。打开就在后台运行,你不需要做任何配置。

第二步:拉模型

打开终端( Windows 用 PowerShell , Mac 用 Terminal ),敲一行:

1
`ollama pull gemma4:e4b`

它会自动下载,大概 2-3G ,看你网速。去泡杯茶。

第三步:跑起来

1
`ollama run gemma4:e4b`

然后就可以开始聊了。就这样。

我第一次跑的时候等了一下,以为什么地方不对。结果就是真的好了,光标在闪,等我发消息。

有点不真实。

没有独显能不能跑?聊聊边界情况

这个问题问的人多,我直接说结论:可以,但要做好心理准备

如果你是 Mac 的 Apple Silicon ( M1/M2/M3 ),统一内存架构让本地跑模型效率出奇地好——M2 系列 16G 统一内存跑 E4B ,速度够用,很多人日常就用这个。

如果是 Windows 纯 CPU , E2B 勉强能跑, E4B 就很慢了——那种每秒出 1-2 个字的速度,你的耐心会先崩。坐那儿等字一个个蹦出来,跟看着开水壶煮沸差不多,整个人都哑巴了。

如果你的机器是游戏本但显卡是 4G 以下的,我的建议是:先跑 E2B 试试感受。能接受速度就继续用,不能接受就换用云端工具。别为了”本地”这两个字折磨自己。说真的,有些人在 1060 显卡上死磕本地大模型,我看着都替他们累。

有一个坑我需要提一下——Ollama 默认会自动判断用 CPU 还是 GPU,但有时候会判断错,这个 bug 到现在还没完全修好(或者说他们压根没当成 bug )。如果你明明有独显却感觉特别慢,试试在环境变量里设一下CUDA_VISIBLE_DEVICES=0,强制用 GPU 。这个坑有人踩过, 4 月 9 日在 CSDN 的实战帖里有人提到过,评论区一堆人在谢。

装完以后能用来干什么?这才是关键

部署好模型只是开始。本地 AI 真正值钱的地方,是它能让你做一些用云端工具很难做到的事。

场景一:处理有隐私顾虑的文件

公司的内部报告、合同草案、客户数据——这些东西你不一定愿意传到 OpenAI 或 Claude 的服务器上(哪怕他们说不会训练你的数据,你也不一定完全放心)。 Gemma4 在本地跑,数据不出你的电脑。这个优势是刚需,不是可有可无的。

场景二:搭个私人工作流

Ollama 跑起来之后会在本地开放一个 API 接口,地址是localhost:11434。任何能调 API 的工具都可以接上去——比如 n8n 、 Dify 、还有最近很多人在用的 Flowise 。你可以把 Gemma4 当成你自己的”后端大脑”,接上去搭自动化流程,比如:每天早上自动总结你的邮件、整理会议记录、帮你从一堆报告里提关键信息。

一次搭好,之后基本不用管。

场景三:搭一个本地知识库

Gemma4 支持 256K 超长上下文窗口,这意味着你可以把整本公司内部文档扔进去,让它直接回答你的问题——“上季度有没有提到过 XX 供应商?”、”合同里关于违约条款怎么说的?”。比自己翻快多了。

和付费工具比,差距在哪?

说实话。

Gemma4 E4B 和 Claude Sonnet 比,在复杂推理、微妙语感、长文创作上,还是有差距的。这没什么好藏着掖着的——参数量差了一个数量级,不可能打平,说能打平的要么没测过要么在骗你。

但”差一些”不代表”没用”。

用一个不那么优雅但准确的类比: Gemma4 E4B 就像你家里的微波炉, Claude Sonnet 是外面的米其林餐厅。日常热个饭你不需要去米其林,而且微波炉是你的, 24 小时随时用,不用排队不用花钱。

我觉得很多人对本地模型有一种怪异的执念,非要它样样都强才觉得值得装。这心态有点问题。工具本来就是按场景分工的,一把螺丝刀不能替代锤子,但你不会因此把螺丝刀扔掉。

你要做的不是用本地模型替换 Claude ,而是想清楚哪些任务用微波炉就够了,哪些值得去餐厅

根据我用下来的体感(仅供参考,你的情况可能不一样):
 - 够用的场景:文档整理、资料检索、会议纪要、代码注释、简单翻译、格式转换
 - 不够用的场景:需要大量创意写作、复杂逻辑推理、对中文语感要求很高的内容

把够用的场景转移到本地,省下来的成本去投在不够用的场景上,这是比较合理的分配方式。

行动清单

如果你看完想试试,照这个顺序来:

1.去 ollama.com 下载并安装 Ollama ( 5 分钟)

2.打开终端,执行 ollama pull gemma4:e4b(等下载完成)

3.执行 ollama run gemma4:e4b,发一条消息测试是否正常

4.如果跑起来了,想进一步玩:搜索”Ollama + Open WebUI”,可以给它装一个好看的聊天界面

5.如果速度太慢,先试 E2B 版本:ollama pull gemma4:e2b

要是碰到显卡不被识别的问题,优先检查一下显卡驱动版本——这是最高频的坑,通常更新驱动就解决了。

上个月我朋友给我说他每个月在各种 AI 工具上花了 600 块订阅费,然后问我值不值。

我说:你测试一下本地能跑什么,不能跑的才值得花钱。

他之后告诉我, 30%的任务本地就够了。

一个月省了大约 180 块。

这钱不多,但省下来买点别的不好吗。


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: 谷歌偷偷开源了一个怪物,你的破电脑现在可以免费养一个AI助手了
  • 作者: lxiol
  • 创建于 : 2026-04-29 20:16:21
  • 更新于 : 2026-05-12 16:47:34
  • 链接: https://blog.lxiol.cn/2026/04/29/谷歌偷偷开源了一个怪物你的破电脑现在可以免费养一个AI助手了/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。