4.8MB 的轻量 AI 服务器!Shimmy:用 Rust 打造的极速 LLM API 服务

lxiol
📝
最近一直在用 Rust 写程序,axum 框架 —— 性能好,开发效率高,本来盘算着基于 axum 自己做一个 LLM 的 API 服务,结果在 GitHub 意外发现了一个类似的宝藏项目:Shimmy(https://github。com/Michael-A-Kuykendall/shimmy),不仅star冲到了4

原文链接:https://mp.weixin.qq.com/s/IrkDiVK8sq7BvWS3Oy3AKg

最近一直在用 Rust 写程序,axum 框架 —— 性能好,开发效率高,本来盘算着基于 axum 自己做一个 LLM 的 API 服务,结果在 GitHub 意外发现了一个类似的宝藏项目:Shimmy(https://github.com/Michael-A-Kuykendall/shimmy),不仅star冲到了4.4k,关键是功能齐全,轻量化、启动快,接下来跟大家详细聊聊。

✨ 起因:想做 Rust AI API,却发现了新大陆

作为 Rust 爱好者,我对高性能、低资源占用的程序有执念。用 axum 写 API 的过程中,我一直在琢磨怎么让 LLM 服务更 “轻”—— 毕竟市面上不少同类工具,要么安装包几百 MB,资源战胜比较大。

直到刷到 Shimmy,才发现有人已经把这个想法落地,并且做得很好:它完全基于 Rust 构建,天生继承了 Rust 的内存安全和高性能特性,最让我惊喜的是,它还做了很多 “人性化” 设计,比如自动加载模型,不用手动配置路径,会自动检索这些位置:

-

-

-
-

1
`Hugging Face 缓存:~/.cache/huggingface/hub/``Ollama 模型:~/.ollama/models/``本地目录:./models/``环境变量:SHIMMY_BASE_GGUF=path/to/model.gguf`

不用手动指定模型路径,开箱就能适配常见的模型存放方式,对开发者比较友好了。

🚀 核心亮点:轻,快!

Shimmy 最核心的优势,就是 “轻” 和 “快”。我特意对比了市面上主流的 LLM 服务工具,差距一眼就能看出来:

工具

二进制大小

启动时间

内存占用

OpenAI API 兼容度

Shimmy

4.8MB

<100ms

50MB

100%

Ollama

680MB

5-10s

200MB+

部分兼容

llama.cpp

89MB

1-2s

100MB

需通过 llama-server

4.8MB 的二进制包,不到 100ms 就能启动,内存占用仅 50MB,还 100% 兼容 OpenAI 的 API 格式 —— 意味着你用 ChatGPT 的调用方式,直接就能对接 Shimmy,不用改一行代码,这性价比直接拉满。

💻 实操体验:3 步启动,踩坑与解决

心动不如行动,我立刻动手试了试,安装启动全程超简单,不过踩了个小坑,分享给大家避坑:

第一步:下载二进制包

1
`curl -L https://github.com/Michael-A-Kuykendall/shimmy/releases/latest/download/shimmy-linux-x86_64 -o shimmy`

第二步:添加执行权限

1
`chmod+x shimmy`

第三步:启动服务(重点避坑!)

我一开始按官方默认命令启动:

1
`./shimmy serve --gpu-backend auto`

结果发现 GPU 加速没生效,折腾了一下才发现,需要把auto改成vulkan:

1
`shimmy serve --gpu-backend vulkan`

改完之后,GPU 加速正常启用,服务秒启动,全程丝滑无卡顿。

更多的参数如下:

🔌 丰富的 API:兼容 OpenAI,还支持 WebSocket

Shimmy 的 API 设计也很全面,覆盖了常见的使用场景,而且兼容 OpenAI 格式,迁移成本几乎为零:

-

-

-

-
-

1
`GET /health - 健康检查,快速验证服务是否正常``POST /v1/chat/completions - 兼容 OpenAI 的聊天接口,无缝替换``GET /v1/models - 列出当前可用的模型``POST /api/generate - Shimmy 原生 API``GET /ws/generate - WebSocket 流式输出,适合实时交互场景`

不管是想快速替换 OpenAI 接口,还是用原生接口做定制化开发,都能满足。试一下模型的接口,结果如下:

-

-

-
-

1
`# 命令``curl http://127.0.0.1:11435/v1/models``# 结果``{"object":"list","data":[{"id":"phi3-lora","object":"model","created":1777205296,"owned_by":"shimmy"},{"id":"qwen3.6-27b-ud-q8-k-xl","object":"model","created":1777205296,"owned_by":"shimmy"},{"id":"qwen3.6-35b-a3b-q8-0","object":"model","created":1777205296,"owned_by":"shimmy"},{"id":"qwopus3.5-27b-v3-q8-0","object":"model","created":1777205296,"owned_by":"shimmy"}]}`

🎯 最后:爱折腾的开发者值得一试

作为一个偏爱轻量、高性能工具的开发者,Shimmy 给我的体验远超预期:Rust 加持的极致轻量化、毫秒级启动速度、100% 的 OpenAI API 兼容,还有自动加载模型的贴心设计,爱折腾的同学可以试一下,有问题欢迎在评论区交流。


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: 4.8MB 的轻量 AI 服务器!Shimmy:用 Rust 打造的极速 LLM API 服务
  • 作者: lxiol
  • 创建于 : 2026-04-29 20:24:58
  • 更新于 : 2026-05-12 16:07:03
  • 链接: https://blog.lxiol.cn/2026/04/29/48MB-的轻量-AI-服务器Shimmy用-Rust-打造的极速-LLM-API-服务/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。