vMLX:把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版,语音、视觉、代码代理一应俱全

lxiol
📝
vMLX:把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版,语音、视觉、代码代理一应俱全

原文链接:https://mp.weixin.qq.com/s/3huN7vGcWHfVLvGdJ-JbPQ

vMLX:把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版,语音、视觉、代码代理一应俱全

vMLX 是专为 Apple Silicon M 系列芯片开发的本地 AI 推理引擎,开源在 GitHub 项目 jjang-ai/vmlx 下。能在 Mac 上完全本地运行 LLM、VLM 和图像生成模型,提供 OpenAI、Anthropic 和 Ollama 兼容的 API,无需云端、无 API key、所有数据留在本地设备。vMLX 引擎是 MLX Studio 桌面应用的底层动力,后者是基于 Electron 的原生 macOS 客户端,包含聊天界面、历史记录、图像生成面板、代理工具和模型管理器。项目同时发布在 PyPI(包名 vmlx)和 GitHub Releases。

安装与快速上手

安装方式分为命令行引擎和桌面应用两种。

命令行安装(vmlx 引擎)

推荐使用 uv 或 pipx,避免 macOS 14+ 的 externally-managed-environment 问题。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
●●●bash

`# 最推荐:uv
brew install uv
uv tool install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

# 或者 pipx
brew install pipx
pipx install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

# 或者 venv 内 pip
python3 -m venv ~/.vmlx-env && source ~/.vmlx-env/bin/activate
pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit`

启动后,服务器默认运行在 http://0.0.0.0:8000,支持 OpenAI 和 Anthropic 兼容 API。

桌面应用安装(MLX Studio)

https://github.com/jjang-ai/mlxstudio/releases/latest 下载最新 DMG(当前版本 1.2.1,361 MB,Apple Silicon arm64)。

双击打开 DMG,将 vMLX 图标拖入 Applications 文件夹。首次启动会自动安装捆绑的 MLX 推理引擎,无需手动配置 Python 环境。启动后可直接搜索并下载 Hugging Face 上的 MLX 模型,或使用本地模型。

系统要求

●macOS 14+(远程端点模式)或 macOS 26+(Tahoe,完全本地模式)

●Apple Silicon M1 或更高

●最低 8 GB 统一内存,推荐 16 GB+(16 GB 可跑约 20B 参数模型,KV 量化后可进一步扩展)

支持的模型

vMLX 可运行任何 mlx-community 或 mlx-lm 格式的模型,自动读取 config.json 识别架构。支持类型如下:

类型

具体模型示例

文本 LLM

Qwen 2/2.5/3/3.5、Llama 3/3.1/3.2/3.3/4、Mistral/Mixtral、Gemma 3、Phi-4、DeepSeek、GLM-4、MiniMax、Nemotron、StepFun 以及任意 mlx-lm 模型

视觉 VLM

Qwen-VL、Qwen3.5-VL、Pixtral、InternVL、LLaVA、Gemma 3n

MoE 模型

Qwen 3.5 MoE(A3B/A10B)、Mixtral、DeepSeek V2/V3、MiniMax M2.5、Llama 4

混合 SSM

Nemotron-H、Jamba、GatedDeltaNet(Mamba + Attention)

图像生成/编辑

Flux Schnell/Dev、Z-Image Turbo、Qwen Image Edit(需安装 vmlx[image] 额外依赖,通过 mflux 实现)

嵌入与重排序

任意 mlx-lm 嵌入模型、cross-encoder

音频

Kokoro TTS、Whisper STT(通过 mlx-audio)

项目特别提供 JANG 系列量化模型,例如 JANG_2L(2-bit)在 MiniMax M2.5 上 MMLU 得分 74%,远超普通 MLX 4-bit 的 26.5%。支持通过 vmlx convert --jang-profile JANG_3M 等命令转换模型。

核心特性

vMLX 的最大优势在于完整的 5 层缓存栈,这是目前唯一支持 VLM 全栈缓存的 MLX 引擎,比 LM Studio 在 100K 上下文下快 224 倍。

1.5 层缓存栈(唯一支持 VLM 全栈)

○L1:内存前缀缓存 + 分页 KV 缓存

○L2:持久化磁盘缓存(重启后仍热)

○L3:KV 量化(生成时 float16,存储时 q4/q8 压缩)

○L4:连续批处理(最高 256 个并发序列)

○L5:块级磁盘缓存

VLM(如 Qwen-VL、LLaVA)可完整使用所有五层,前缀命中后 TTFT 提升 9.7 倍,多上下文切换不丢失缓存。

2.分页 KV 缓存(Paged KV Cache)

vLLM 风格的块管理,可配置块大小,最多 1000 个块。多对话同时驻留内存,切换上下文零驱逐。

3.KV 缓存量化

存储边界量化,生成保持全精度,缓存时压缩至 q8(约 2 倍节省)或 q4(约 4 倍),16 GB Mac 可跑 100K+ 上下文。API 响应会返回 cached_tokens 字段。

4.连续批处理

智能调度 256 个请求,单台 Mac 可同时服务多个客户端。

5.持久化磁盘缓存

提示缓存写入 SSD,重启后秒开历史对话,可配置大小和目录。

6.推测解码 + Prompt Lookup Decoding

支持小模型 draft + 大模型 verify,或开启 –enable-pld 使用 n-gram 匹配复用上下文,尤其适合代码和 JSON 输出。

7.Mamba / SSM 混合模型原生支持

专用 BatchMambaCache 和 HybridSSMStateCache,实现批处理、合并与量化安全。

8.工具调用与推理解析

自动识别 14 种工具解析器(qwen、llama、mistral、deepseek、glm 等)和 4 种推理解析器。内置 20+ 代理工具,包括文件读写、grep 搜索代码库、shell 执行、git 操作(status、diff、log、show)、DuckDuckGo/Brave 网页搜索、URL 获取、剪贴板访问、日期时间查询等。工具调用以可展开 pill 形式实时显示,支持并行执行。

9.语音与多模态

每条回复自动 TTS,点击即可收听。聊天中可直接拖拽或粘贴图片,由 Qwen-VL 等模型处理。

10.嵌入与完整 API

支持 /v1/embeddings,可同时运行聊天模型和嵌入模型。端点包括 OpenAI chat/completions、Anthropic messages/responses、completions、audio、MCP tools、cancel 等。支持 Remote Endpoint 模式,使用云端模型但保留本地工具。

图像生成与编辑

需安装 pip install "vmlx[image]"。支持 Flux 系列模型(vmlx serve schnell)和 Qwen Image Edit。图像面板提供 Mask Painter(刷子、矩形、橡皮擦、Fill 功能),支持 inpainting 和实时进度显示。

MLX Studio 桌面应用

vMLX 引擎的图形前端,提供以下功能:

●侧边栏历史记录与每个对话独立设置

●内联 diff、折叠式推理块、实时工具调用状态

●模型管理器,一键从 Hugging Face 下载(含 JANG 系列推荐模型)

●服务器仪表盘、缓存统计、基准测试

●语音聊天、视觉拖拽、代理工具面板

●Remote Endpoint 模式(连接 OpenAI/Anthropic 等云端)

Electron 主进程负责会话管理、数据库和 IPC,渲染层使用 React + Tailwind。首次启动自动安装引擎。

源码架构

仓库根目录包含 pyproject.toml、CHANGELOG.md 等,核心源码分为两部分:

vmlx_engine/:Python FastAPI 服务端

○server.py:API 路由与端点

○engine.py / engine_core.py:核心推理循环、Scheduler、输出收集

○cache.py:5 层缓存实现(prefix_cache、paged_cache、disk cache、KV 量化)

○models.py / quantization.py:模型加载与 JANG 自适应量化

○tools.py:14 种工具解析器与 20+ 内置工具

○audio.py / image.py:TTS/STT 与 mflux 图像支持

panel/:Electron 桌面应用源码,主进程(TypeScript)管理会话与 VLLM 进程,渲染层包含 ChatInterface、ReasoningBox、ToolCallWidget 等组件。

项目还包含 tests/、docs/、notes/ 和 assets/。安装开发环境需 pip install -e ".[dev,jang,image]" 并处理 Electron 依赖。

CLI 命令与配置

CLI 支持:

vmlx serve:启动服务器

vmlx convert:GGUF 转 MLX 或 JANG 量化

vmlx infodoctorbench:模型信息、诊断、基准测试

配置文件可调整 host、port、批处理大小、缓存目录、量化选项、工具白名单、默认温度/top-p 等。

vMLX 把 MLX 框架在 M 系列芯片上的性能完全释放:缓存层级最深、工具能力最强、VLM 与图像支持最完整,是目前 Mac 本地 AI 最全面的方案。GitHub 仓库jjang-ai/vmlx,官网 https://vmlx.net/,桌面应用下载见 https://vmlx.net/download/ 或 mlx.studio。直接安装即可在本地运行大模型、写代码、生成图像和执行代理任务。

—— 如此才是

把复杂的技术,讲成你真正能用上的生产力

零基础养🦞 一键小说变短剧 AI驱动的爬虫 每天自动收到AI股票分析 AI虚拟团队在办公室 Agent操作系统 Agent客户端ClawX AI快速游戏开发AionUi:开源免费的多代理AI桌面协作工具 openakita   🔥ClawDeckX可视化管理OpenClaw🔥 Ghost-OS真人化“点鼠标”开源神器 Network-AI:让 OpenClaw 多agent彻底告别竞态、超支和混乱,5 分钟变生产级协调层!GitHub爆款开源神器!388个OpenClaw技能一键装机,你的AI代理直接变身全能打工人3分钟生成完整带词歌曲!ACE-Step-1.5开源免费,把AI音乐创作塞进本地电脑32.4k星的Shopify替代品到底长什么样,开源电商最强灵活框架medusa 开源神器 Network-AI:让 OpenClaw 多agent彻底告别竞态、超支和混乱,5 分钟变生产级协调层!全网扫描神器:开源工具last30days-skill ,让你瞬间掌握任何话题的最新真实动态


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: vMLX:把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版,语音、视觉、代码代理一应俱全
  • 作者: lxiol
  • 创建于 : 2026-05-06 19:49:29
  • 更新于 : 2026-05-12 16:07:04
  • 链接: https://blog.lxiol.cn/2026/05/06/vMLX把Mac变成AI工作站开源MLX推理引擎MLX-Studio桌面版语音视觉代码代理一应俱全/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
目录
vMLX:把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版,语音、视觉、代码代理一应俱全