📝

最近一直在用 Rust 写程序，axum 框架 —— 性能好，开发效率高，本来盘算着基于 axum 自己做一个 LLM 的 API 服务，结果在 GitHub 意外发现了一个类似的宝藏项目：Shimmy（https://github。com/Michael-A-Kuykendall/shimmy），不仅star冲到了4

原文链接：https://mp.weixin.qq.com/s/IrkDiVK8sq7BvWS3Oy3AKg

最近一直在用 Rust 写程序，axum 框架 —— 性能好，开发效率高，本来盘算着基于 axum 自己做一个 LLM 的 API 服务，结果在 GitHub 意外发现了一个类似的宝藏项目：Shimmy（https://github.com/Michael-A-Kuykendall/shimmy），不仅star冲到了4.4k，关键是功能齐全，轻量化、启动快，接下来跟大家详细聊聊。

✨ 起因：想做 Rust AI API，却发现了新大陆

作为 Rust 爱好者，我对高性能、低资源占用的程序有执念。用 axum 写 API 的过程中，我一直在琢磨怎么让 LLM 服务更 “轻”—— 毕竟市面上不少同类工具，要么安装包几百 MB，资源战胜比较大。

直到刷到 Shimmy，才发现有人已经把这个想法落地，并且做得很好：它完全基于 Rust 构建，天生继承了 Rust 的内存安全和高性能特性，最让我惊喜的是，它还做了很多 “人性化” 设计，比如自动加载模型，不用手动配置路径，会自动检索这些位置：

-
-

1	`Hugging Face 缓存：~/.cache/huggingface/hub/``Ollama 模型：~/.ollama/models/``本地目录：./models/``环境变量：SHIMMY_BASE_GGUF=path/to/model.gguf`

不用手动指定模型路径，开箱就能适配常见的模型存放方式，对开发者比较友好了。

🚀 核心亮点：轻，快！

Shimmy 最核心的优势，就是 “轻” 和 “快”。我特意对比了市面上主流的 LLM 服务工具，差距一眼就能看出来：

工具

二进制大小

启动时间

内存占用

OpenAI API 兼容度

Shimmy

4.8MB

<100ms

50MB

100%

Ollama

680MB

5-10s

200MB+

部分兼容

llama.cpp

89MB

1-2s

100MB

需通过 llama-server

4.8MB 的二进制包，不到 100ms 就能启动，内存占用仅 50MB，还 100% 兼容 OpenAI 的 API 格式 —— 意味着你用 ChatGPT 的调用方式，直接就能对接 Shimmy，不用改一行代码，这性价比直接拉满。

💻 实操体验：3 步启动，踩坑与解决

心动不如行动，我立刻动手试了试，安装启动全程超简单，不过踩了个小坑，分享给大家避坑：

第一步：下载二进制包

1	`curl -L https://github.com/Michael-A-Kuykendall/shimmy/releases/latest/download/shimmy-linux-x86_64 -o shimmy`

第二步：添加执行权限

1	`chmod+x shimmy`

第三步：启动服务（重点避坑！）

我一开始按官方默认命令启动：

1	`./shimmy serve --gpu-backend auto`

结果发现 GPU 加速没生效，折腾了一下才发现，需要把auto改成vulkan：

1	`shimmy serve --gpu-backend vulkan`

改完之后，GPU 加速正常启用，服务秒启动，全程丝滑无卡顿。

更多的参数如下：

🔌 丰富的 API：兼容 OpenAI，还支持 WebSocket

Shimmy 的 API 设计也很全面，覆盖了常见的使用场景，而且兼容 OpenAI 格式，迁移成本几乎为零：

-
-

`GET /health - 健康检查，快速验证服务是否正常``POST /v1/chat/completions - 兼容 OpenAI 的聊天接口，无缝替换``GET /v1/models - 列出当前可用的模型``POST /api/generate - Shimmy 原生 API``GET /ws/generate - WebSocket 流式输出，适合实时交互场景`

不管是想快速替换 OpenAI 接口，还是用原生接口做定制化开发，都能满足。试一下模型的接口，结果如下：

-
-

`# 命令``curl http://127.0.0.1:11435/v1/models``# 结果``{"object":"list","data":[{"id":"phi3-lora","object":"model","created":1777205296,"owned_by":"shimmy"},{"id":"qwen3.6-27b-ud-q8-k-xl","object":"model","created":1777205296,"owned_by":"shimmy"},{"id":"qwen3.6-35b-a3b-q8-0","object":"model","created":1777205296,"owned_by":"shimmy"},{"id":"qwopus3.5-27b-v3-q8-0","object":"model","created":1777205296,"owned_by":"shimmy"}]}`

🎯 最后：爱折腾的开发者值得一试

作为一个偏爱轻量、高性能工具的开发者，Shimmy 给我的体验远超预期：Rust 加持的极致轻量化、毫秒级启动速度、100% 的 OpenAI API 兼容，还有自动加载模型的贴心设计，爱折腾的同学可以试一下，有问题欢迎在评论区交流。

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。

4.8MB 的轻量 AI 服务器！Shimmy：用 Rust 打造的极速 LLM API 服务

✨ 起因：想做 Rust AI API，却发现了新大陆

🚀 核心亮点：轻，快！

💻 实操体验：3 步启动，踩坑与解决

🔌 丰富的 API：兼容 OpenAI，还支持 WebSocket

🎯 最后：爱折腾的开发者值得一试