vMLX：把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版，语音、视觉、代码代理一应俱全

📝

原文链接：https://mp.weixin.qq.com/s/3huN7vGcWHfVLvGdJ-JbPQ

vMLX：把Mac变成AI工作站——开源MLX推理引擎+MLX Studio桌面版，语音、视觉、代码代理一应俱全

vMLX 是专为 Apple Silicon M 系列芯片开发的本地 AI 推理引擎，开源在 GitHub 项目 jjang-ai/vmlx 下。能在 Mac 上完全本地运行 LLM、VLM 和图像生成模型，提供 OpenAI、Anthropic 和 Ollama 兼容的 API，无需云端、无 API key、所有数据留在本地设备。vMLX 引擎是 MLX Studio 桌面应用的底层动力，后者是基于 Electron 的原生 macOS 客户端，包含聊天界面、历史记录、图像生成面板、代理工具和模型管理器。项目同时发布在 PyPI（包名 vmlx）和 GitHub Releases。

安装与快速上手

安装方式分为命令行引擎和桌面应用两种。

命令行安装（vmlx 引擎）

推荐使用 uv 或 pipx，避免 macOS 14+ 的 externally-managed-environment 问题。

●●●bash

`# 最推荐：uv
brew install uv
uv tool install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

# 或者 pipx
brew install pipx
pipx install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

# 或者 venv 内 pip
python3 -m venv ~/.vmlx-env && source ~/.vmlx-env/bin/activate
pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit`

启动后，服务器默认运行在 http://0.0.0.0:8000，支持 OpenAI 和 Anthropic 兼容 API。

桌面应用安装（MLX Studio）

从 https://github.com/jjang-ai/mlxstudio/releases/latest 下载最新 DMG（当前版本 1.2.1，361 MB，Apple Silicon arm64）。

双击打开 DMG，将 vMLX 图标拖入 Applications 文件夹。首次启动会自动安装捆绑的 MLX 推理引擎，无需手动配置 Python 环境。启动后可直接搜索并下载 Hugging Face 上的 MLX 模型，或使用本地模型。

系统要求

●macOS 14+（远程端点模式）或 macOS 26+（Tahoe，完全本地模式）

●Apple Silicon M1 或更高

●最低 8 GB 统一内存，推荐 16 GB+（16 GB 可跑约 20B 参数模型，KV 量化后可进一步扩展）

支持的模型

vMLX 可运行任何 mlx-community 或 mlx-lm 格式的模型，自动读取 config.json 识别架构。支持类型如下：

类型

具体模型示例

文本 LLM

Qwen 2/2.5/3/3.5、Llama 3/3.1/3.2/3.3/4、Mistral/Mixtral、Gemma 3、Phi-4、DeepSeek、GLM-4、MiniMax、Nemotron、StepFun 以及任意 mlx-lm 模型

视觉 VLM

Qwen-VL、Qwen3.5-VL、Pixtral、InternVL、LLaVA、Gemma 3n

MoE 模型

Qwen 3.5 MoE（A3B/A10B）、Mixtral、DeepSeek V2/V3、MiniMax M2.5、Llama 4

混合 SSM

Nemotron-H、Jamba、GatedDeltaNet（Mamba + Attention）

图像生成/编辑

Flux Schnell/Dev、Z-Image Turbo、Qwen Image Edit（需安装 vmlx[image] 额外依赖，通过 mflux 实现）

嵌入与重排序

任意 mlx-lm 嵌入模型、cross-encoder

音频

Kokoro TTS、Whisper STT（通过 mlx-audio）

项目特别提供 JANG 系列量化模型，例如 JANG_2L（2-bit）在 MiniMax M2.5 上 MMLU 得分 74%，远超普通 MLX 4-bit 的 26.5%。支持通过 vmlx convert --jang-profile JANG_3M 等命令转换模型。

核心特性

vMLX 的最大优势在于完整的 5 层缓存栈，这是目前唯一支持 VLM 全栈缓存的 MLX 引擎，比 LM Studio 在 100K 上下文下快 224 倍。

1.5 层缓存栈（唯一支持 VLM 全栈）

○L1：内存前缀缓存 + 分页 KV 缓存

○L2：持久化磁盘缓存（重启后仍热）

○L3：KV 量化（生成时 float16，存储时 q4/q8 压缩）

○L4：连续批处理（最高 256 个并发序列）

○L5：块级磁盘缓存

VLM（如 Qwen-VL、LLaVA）可完整使用所有五层，前缀命中后 TTFT 提升 9.7 倍，多上下文切换不丢失缓存。

2.分页 KV 缓存（Paged KV Cache）

vLLM 风格的块管理，可配置块大小，最多 1000 个块。多对话同时驻留内存，切换上下文零驱逐。

3.KV 缓存量化

存储边界量化，生成保持全精度，缓存时压缩至 q8（约 2 倍节省）或 q4（约 4 倍），16 GB Mac 可跑 100K+ 上下文。API 响应会返回 cached_tokens 字段。

4.连续批处理

智能调度 256 个请求，单台 Mac 可同时服务多个客户端。

5.持久化磁盘缓存

提示缓存写入 SSD，重启后秒开历史对话，可配置大小和目录。

6.推测解码 + Prompt Lookup Decoding

支持小模型 draft + 大模型 verify，或开启 –enable-pld 使用 n-gram 匹配复用上下文，尤其适合代码和 JSON 输出。

7.Mamba / SSM 混合模型原生支持

专用 BatchMambaCache 和 HybridSSMStateCache，实现批处理、合并与量化安全。

8.工具调用与推理解析

自动识别 14 种工具解析器（qwen、llama、mistral、deepseek、glm 等）和 4 种推理解析器。内置 20+ 代理工具，包括文件读写、grep 搜索代码库、shell 执行、git 操作（status、diff、log、show）、DuckDuckGo/Brave 网页搜索、URL 获取、剪贴板访问、日期时间查询等。工具调用以可展开 pill 形式实时显示，支持并行执行。

9.语音与多模态

每条回复自动 TTS，点击即可收听。聊天中可直接拖拽或粘贴图片，由 Qwen-VL 等模型处理。

10.嵌入与完整 API

支持 /v1/embeddings，可同时运行聊天模型和嵌入模型。端点包括 OpenAI chat/completions、Anthropic messages/responses、completions、audio、MCP tools、cancel 等。支持 Remote Endpoint 模式，使用云端模型但保留本地工具。

图像生成与编辑

需安装 pip install "vmlx[image]"。支持 Flux 系列模型（vmlx serve schnell）和 Qwen Image Edit。图像面板提供 Mask Painter（刷子、矩形、橡皮擦、Fill 功能），支持 inpainting 和实时进度显示。

MLX Studio 桌面应用

vMLX 引擎的图形前端，提供以下功能：

●侧边栏历史记录与每个对话独立设置

●内联 diff、折叠式推理块、实时工具调用状态

●模型管理器，一键从 Hugging Face 下载（含 JANG 系列推荐模型）

●服务器仪表盘、缓存统计、基准测试

●语音聊天、视觉拖拽、代理工具面板

●Remote Endpoint 模式（连接 OpenAI/Anthropic 等云端）

Electron 主进程负责会话管理、数据库和 IPC，渲染层使用 React + Tailwind。首次启动自动安装引擎。

源码架构

仓库根目录包含 pyproject.toml、CHANGELOG.md 等，核心源码分为两部分：

●vmlx_engine/：Python FastAPI 服务端

○server.py：API 路由与端点

○engine.py / engine_core.py：核心推理循环、Scheduler、输出收集

○cache.py：5 层缓存实现（prefix_cache、paged_cache、disk cache、KV 量化）

○models.py / quantization.py：模型加载与 JANG 自适应量化

○tools.py：14 种工具解析器与 20+ 内置工具

○audio.py / image.py：TTS/STT 与 mflux 图像支持

●panel/：Electron 桌面应用源码，主进程（TypeScript）管理会话与 VLLM 进程，渲染层包含 ChatInterface、ReasoningBox、ToolCallWidget 等组件。

项目还包含 tests/、docs/、notes/ 和 assets/。安装开发环境需 pip install -e ".[dev,jang,image]" 并处理 Electron 依赖。

CLI 命令与配置

CLI 支持：

●vmlx serve：启动服务器

●vmlx convert：GGUF 转 MLX 或 JANG 量化

●vmlx info、doctor、bench：模型信息、诊断、基准测试

配置文件可调整 host、port、批处理大小、缓存目录、量化选项、工具白名单、默认温度/top-p 等。

vMLX 把 MLX 框架在 M 系列芯片上的性能完全释放：缓存层级最深、工具能力最强、VLM 与图像支持最完整，是目前 Mac 本地 AI 最全面的方案。GitHub 仓库jjang-ai/vmlx，官网 https://vmlx.net/，桌面应用下载见 https://vmlx.net/download/ 或 mlx.studio。直接安装即可在本地运行大模型、写代码、生成图像和执行代理任务。

—— 如此才是

把复杂的技术，讲成你真正能用上的生产力

零基础养🦞 一键小说变短剧 AI驱动的爬虫每天自动收到AI股票分析 AI虚拟团队在办公室 Agent操作系统 Agent客户端ClawX AI快速游戏开发 AionUi：开源免费的多代理AI桌面协作工具 openakita 🔥ClawDeckX可视化管理OpenClaw🔥 Ghost-OS真人化“点鼠标”开源神器 Network-AI：让 OpenClaw 多agent彻底告别竞态、超支和混乱，5 分钟变生产级协调层！GitHub爆款开源神器！388个OpenClaw技能一键装机，你的AI代理直接变身全能打工人 3分钟生成完整带词歌曲！ACE-Step-1.5开源免费，把AI音乐创作塞进本地电脑 32.4k星的Shopify替代品到底长什么样，开源电商最强灵活框架medusa 开源神器 Network-AI：让 OpenClaw 多agent彻底告别竞态、超支和混乱，5 分钟变生产级协调层！全网扫描神器：开源工具last30days-skill ，让你瞬间掌握任何话题的最新真实动态

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。