用LLMFit+Ollama一键榨干电脑性能,搭建最强本地AI,告别盲目试错!

lxiol
📝
Ubuntu 上跑本地大模型,先用 llmfit 做硬件检测,再用 Ollama 拉起第一个模型。显卡驱动、CUDA 配置、模型推荐、API 调用,还有 CanIRun.ai 浏览器端检测工具,手把手从零搭建。

原文链接:https://mp.weixin.qq.com/s/d37q8ouzptqft6zM-1wBXA

Ubuntu 上跑本地大模型,先用 llmfit 做硬件检测,再用 Ollama 拉起第一个模型。显卡驱动、CUDA 配置、模型推荐、API 调用,还有 CanIRun.ai 浏览器端检测工具,手把手从零搭建。

在本地跑大模型这件事,我折腾了将近一个周。

第一次装好Ollama的时候,兴冲冲拉了一个70B模型下来,结果跑起来慢得像在翻老黄页。

问题出在哪?不知道。

模型参数太大?电脑带不动?还是Ollama没调用显卡?

不知道。稀里糊涂地换了两个模型,问题依旧,最后才发现是显卡驱动没装对。

所以有了这篇文章。

我假设你是一张白纸,从头开始讲:怎么检测自己的电脑能跑什么模型(用llmfit),怎么装好基础环境,怎么跑起第一个本地大模型(用Ollama),以及在动手之前,怎么用浏览器快速评估自己电脑的硬件能力(CanIRun.ai)。

整篇文章的逻辑很简单:先检测,再动手,不走冤枉路。

一、先用 llmfit 做硬件检测:适合跑什么模型,你的数据说了算

很多人装大模型,第一步就是直接去拉模型,结果下了半天跑不起来,白浪费时间和带宽。

llmfit 这个工具就是来解决这个问题的。它跑在你的终端里,检测你电脑的 CPU、内存、显卡和显存,然后跟模型库里几百个模型做匹配,直接告诉你:哪个模型能跑,哪个模型跑得好,哪个模型跑起来会很吃力。

安装 llmfit

Linux 和 macOS 安装方式一样,一条命令:

1
`curl -fsSL https://llmfit.axjns.dev/install.sh | sh`

如果你用 Homebrew:

1
`brew install llmfit`

装完之后验证:

1
`llmfit --version`

看到版本号就说明装好了。

检测硬件配置

在终端里直接运行:

1
`llmfit`

默认会进入一个交互式界面,显示你电脑的 CPU 型号和核心数、内存大小、显卡型号和显存。模型列表按”适合度”排序,适合度高的在前面。

我在用的电脑是 Ubuntu 系统,显卡是 RTX 4090,24GB 显存,120GB 运行内存。跑 llmfit 之后,它给我的推荐是:

  • 27B-35B 参数模型:跑得很流畅

70B 参数模型:带不动,别试了

这个判断和我实际用起来的感觉基本一致。llmfit 的估算是准的。

命令行查推荐模型

如果你只想快速看结果,不需要图形界面,用 CLI 模式:

1
`llmfit --cli recommend --limit 5`

这条命令输出排名前5的推荐模型,包含模型名称、参数量、显存需求、速度估算。

过滤和搜索

在 TUI 界面里:

  • / 键:搜索模型

  • j/k 键:上下移动

  • f 键:切换过滤条件

  • s 键:切换排序方式

如果你想找中文能力强的模型,搜索 “Qwen” 或 “deepseek”,看它推荐哪个量化版本。

二、环境准备:Ubuntu 上的基础配置

硬件检测完之后,开始搭环境。

显卡驱动

没有显卡驱动,Ollama 只能用 CPU 跑,速度极慢,基本不可用。先检查显卡:

1
`lspci | grep -i nvidia`

如果什么都没输出,说明没有 NVIDIA 显卡,下面的驱动步骤可以跳过。如果有显示型号,继续。

安装 CUDA Toolkit 驱动(Ubuntu 22.04):

1
2
3
4
`wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt update
sudo apt install cuda -y`

装完之后验证:

1
`nvidia-smi`

能看到显卡型号和显存信息,说明驱动装好了。

NVIDIA Container Toolkit(Docker 用户需要)

如果你打算用 Docker 跑

1
2
3
4
5
6
`distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt update
sudo apt install nvidia-container-toolkit -y
sudo systemctl restart docker`

模型,需要穿透 GPU:

不用 Docker 的话,这一步可以跳过。

三、Ollama 安装:拉起第一个本地大模型

基础环境好了之后,装 Ollama。Ollama 是目前最流行的本地大模型运行工具,优势是安装简单、模型管理方便、社区活跃。

安装 Ollama

先安装zstd

1
2
`sudo apt update && sudo apt upgrade -y
sudo apt-get install zstd`

一条命令搞定:

1
`curl -fsSL https://ollama.com/install.sh | sh`

验证版本:

1
`ollama --version`

启动服务:

1
`ollama serve`

拉取第一个模型

Ollama 的模型库地址是:

https://ollama.com/library

推荐从中文能力强的模型开始,Qwen3.5(通义千问3.5):35B 参数版本对显卡要求不高,中文效果好:

1
`ollama pull Qwen3.5:35B`

如果你想跑英文为主,可以选 Llama3:

1
`ollama pull llama3`

下载需要一些时间,取决于网络状况。

开始对话

1
`ollama run Qwen3.5:35B`

进入对话界面,直接输入问题,按回车即可。第一次运行会比较慢,模型要加载到显存里,后续使用会快很多。

退出输入 /bye 或按 Ctrl+D。

进阶:Ollama API 接口

Ollama 启动后默认监听本地 11434 端口,可以通过 API 调用模型。

启动服务:

1
`ollama serve`

用 curl 测试 API:

1
2
3
4
`curl http://localhost:11434/api/generate -d '{
  "model": "Qwen3.5:35B",
  "prompt": "本地大模型和在线大模型相比,有什么优势和劣势?"
}'`

API 支持流式输出,和 GPT 的效果一样,逐字返回。这个功能适合做开发调用,比如接自己的知识库或者做自动化脚本。

四、浏览器快速检测:CanIRun.ai 补充你的硬件评估

除了 llmfit 之外,还有一个浏览器端的轻量级工具值得用:

CanIRun.ai(https://canirun.ai)。

这个工具不需要安装任何软件,打开网页之后自动检测你电脑的硬件配置,给你一个直观的”能跑哪些模型”的评估结果。

它的评分逻辑基于显存带宽和模型参数量估算,告诉你每个模型在当前硬件上大概能跑多快。评分等级分五档:Runs great(流畅)、Runs well(良好)、Decent(还行)、Tight fit(勉强)、Barely runs(基本跑不动)。

我自己在换电脑之前,用 CanIRun.ai 快速评估过两台候选机器,几秒钟出结果,省去了装系统再测试的麻烦。这个工具适合在买电脑或者升级配置之前做快速摸底。

llmfit 和 CanIRun.ai 的区别在于:llmfit 是本地检测,数据更准确,考虑了你电脑上的实际运行环境和量化配置;CanIRun.ai 是浏览器端轻量检测,适合快速摸底和跨平台对比。

两个工具配合着用最好——先用 CanIRun.ai 快速摸底,再在装好环境之后用 llmfit 做精确推荐。

五、llmfit 的实际使用感受

说了这么多工具和使用方法,说说我自己的真实感受。

llmfit 解决的最核心问题,不是”哪个模型能跑”,而是”我应该选哪个量化版本”。

同一个模型,通常有多个量化版本:Q4_0、Q5_1、Q8_0,显存需求不同,效果也有差异。显存 8GB 的电脑,理论上能跑 13B 参数模型,但 full precision 版本跑不动,需要量化版。llmfit 会直接告诉你应该选哪个量化版本、速度大概什么水平、效果折损多少。

这是我以前靠查文档查不到、靠试错又太费时间的问题。用了 llmfit 之后,这个决策过程从”瞎试”变成了”看数据决定”。

TUI 界面用起来比命令行舒服,搜索、过滤、对比功能都很实用。尤其是 m 键的多模型对比模式,可以同时看三个模型的参数量、显存需求和速度估算,选起来一目了然。

最后说两句

本地跑大模型这件事这几年变得特别简单。5年前想跑一个能用的大模型,得懂 CUDA、编译环境、模型量化,整个过程折腾下来得几天。现在有了 Ollama 和 llmfit,从开机到跑起来不到半小时。

但工具简单,不代表里面没有坑。选错模型版本、显存不够、显卡驱动没装对——这些问题我在自己折腾的过程中全部踩过。所以才有这篇文章,想把那些我走过的弯路整理出来,让第一次装的人少花点时间在排错上,多点时间在用模型本身。

工具是为目的服务的。本地跑大模型的目的是:你的数据不上传到任何服务器,你的问题不被任何人看见,你的调用量不受任何限制。这是本地模型和在线服务本质上的不同,也是它存在的价值。

但有一件事必须说清楚:本地模型的好,是有代价的。

我现在用的是 RTX 4090,24GB 显存,万元级别的显卡。拿它跑 Qwen3.5:35B 这类大参数模型,复杂一点的任务,一跑就是十五分钟起步。

不是 Ollama 慢,是硬件真的在全力运转,显存吃到顶,风扇全程呼啸。

所以我的建议是:想清楚你的用途再动手。

如果你只是日常写文字、翻译、总结,在线大模型几分钟能搞定的事,本地模型要跑十几分钟,效率反而低。

但如果你对数据安全有要求,或者想接私有知识库、跑自动化脚本,那本地模型的优势是压倒性的——离线可用,不限次数,不走任何外部服务器。

4090 跑 35B 模型,这不是普通用户的场景。普通用户先从 7B 参数模型开始试,能满足大部分需求了,硬件压力也小很多。

先跑起来,体验到价值了,再考虑升级硬件——而不是买了硬件再来想用来干什么。

文章有用,点赞、关注、转发,点个“在看”不迷路~

#Ollama #llmfit #本地大模型 #Ubuntu #大模型部署

免责声明:本文仅代表个人实践与观点,不构成任何技术建议。本地部署涉及硬件兼容性,不同设备表现可能有差异。


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: 用LLMFit+Ollama一键榨干电脑性能,搭建最强本地AI,告别盲目试错!
  • 作者: lxiol
  • 创建于 : 2026-05-06 19:48:43
  • 更新于 : 2026-05-12 16:32:44
  • 链接: https://blog.lxiol.cn/2026/05/06/用LLMFitOllama一键榨干电脑性能搭建最强本地AI告别盲目试错/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
目录
用LLMFit+Ollama一键榨干电脑性能,搭建最强本地AI,告别盲目试错!