参数砍到 1B，这个小钢炮拿下多模态第一

📝

1.3B 参数拿下同级综合第一，推理吞吐量是同行的 1.5 倍。

原文链接：https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA

1.3B 参数拿下同级综合第一，推理吞吐量是同行的 1.5 倍。

今天，面壁智能发布并开源了 MiniCPM-V 4.6，MiniCPM-V 系列有史以来最小的模型，参数量只有 1.3B。

小归小，但其多模态综合能力则在 1B 级别里，拿到了第一。

Artificial Analysis 智能指数
01

为什么做小

你可能会有些疑问：不都大模型吗？为什么要小？小有啥子用？

8B 的模型跑在服务器上、在 OpenAI 和 Anthropic 的机房里、在你的 4090 上……当然没什么问题，但到了手机、车机、智能家居这些终端设备上，就有点跑不动了。

参数越大，推理越慢，功耗越高，能适配的芯片、运行的环境也就会越少。

模型尺寸 vs 设备覆盖
打个比方吧，8B 像大巴车，宽敞舒适，但只能走大路。1B 呢，则更像是辆电动自行车，大街小巷随便钻，北京胡同也能玩，随到随停。

做到 1B 这个级别，基本上市面上所有手机和电脑，都能高效跑起来了。

你手里的手机，当然也轻松能跑。

面壁智能此前的比这次更大一些的端侧模型，就已经在联想、吉利、上汽大众等不少 B 端客户的产品里落地。

这些客户的共同诉求，就这一个字：小。

越小，能装进的设备就越多，能覆盖的场景就越广，越能满足各类用户群体的定位。
02

小但能打

而这么个 1.3B 的参数量，会不会能力有所缩水呢？

答案是：不会。

来看下成绩。

MiniCPM-V 4.6 在多模态综合评测中超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it，在 1B 级别的所有模型中拿到了最好的成绩。

它有 Instruct 和 Thinking 两个版本，Instruct 快速响应日常任务，Thinking 遇到复杂推理时会深度思考。

Instruct 评测成绩

Thinking 评测成绩

而这之外，更能说明问题的是：效率。

在 Artificial Analysis 评测中，MiniCPM-V 4.6 仅用了 Qwen3.5-0.8B 2.5% 的 token 量，就超过了对方的得分。

Artificial Analysis token 用量对比
注意：2.5%，也就是 40 分之一。

Artificial Analysis 智能指数 vs token 数量
换个说法，别人用一整本书才讲完的事儿，它一页纸就说清楚了。

Artificial Analysis 整体成绩
这个「智能密度」在同尺寸模型中排到了最高，也算是又一次验证了面壁智能 2024 年提出并登上 Nature 子刊的「密度定律」。

密度定律验证03

超快推理

能力强只是一面，推理速度也是非常迅速。

我们在面壁手机 APP 下载模型后，直接断网进行上手体验，这样更为直观。下面的两个演示，完全的跑在手机端侧（不经过任何云端 api），用的是 MiniCPM-V 4.6 INT4 量化版本。

第一个是文档识别。我们把一张拍英文论文截图上传后，让它识别文字，表格输出 HTML，公式输出 LaTeX：

论文识别演示
大约 5 秒，就跑完了：表格结构、数学公式、正文段落，全都识别正确。

再来试一个偏生活化的场景：拍一张英文餐厅菜单，然后问它：「帮我把饮料翻译成中文。」

菜单问答：翻译饮料
几乎就是秒回……于是我们再追问一句：「最便宜的主菜是哪个？」

菜单问答：追问最便宜的菜
同样秒回：Cheese Sandwich，$2。

多轮对话、图片理解、中英翻译、价格比较，全都在手机上完成，不需要联网。

MiniCPM-V 4.6（16 倍压缩模式）基于 vLLM 的单卡高并发吞吐量达到了 2624 token/s。处理 1344² 分辨率的图片，则能跑到 14.3 张/秒。

是 Qwen3.5-0.8B 的 1.5 倍。

换句话说，同一张显卡，部署 MiniCPM-V 4.6 能承接的线上流量显著多于同级对手。对租两小时 AutoDL 跑着玩儿的可能没啥，但对企业来说，这相当于 GPU 成本真金白银的直接减少。

首响延迟方面，也同样拉开了差距。

低分辨率（448²）的时候，两个模型的 TTFT 差不多，都在 30ms 左右。但随着分辨率往上走，曲线就开始分叉了。

到 3136² 的高清大图，MiniCPM-V 4.6 的 TTFT 是 75.7ms，Qwen3.5-0.8B 则需要 168.6ms，快了 2.2 倍。

图片越大，MiniCPM-V 4.6 的优势越明显。

原因很好理解，16 倍视觉 token 压缩让序列更短、KV-Cache 更小，高分辨率下的计算膨胀被压住了。
04

怎么做到的呢？

又小、又快、能力还有点强，这背后是两个模型架构层面的创新。

我们知道，在进行多模态模型处理图片时，需要先通过 ViT（Vision Transformer）把图像编码成一串视觉 token，再交给语言模型去理解。

所以图片分辨率越高，token 越多，计算量就越大。

常规的做法是，等 ViT 编码完之后，再接一个压缩模块来减少 token 数量。这样确实能减轻语言模型的负担，但 ViT 内部的那一大堆计算量，一点都没省下来。

那……能不能把压缩往前挪呢？

越早压缩，后面的 ViT 层需要处理的 token 就越少。

LLaVA-UHD v4 架构
面壁智能和清华大学联合研发的 LLaVA-UHD v4，核心思路就是这个。

把视觉 token 压缩前移到 ViT 内部的浅层。

但直接在浅层插一个随机初始化的压缩模块……会严重破坏 ViT 已经学好的视觉表征，训练代价太高了，效果也可能掉点。

这里的解法是：复用相邻预训练 ViT 层的参数来初始化这个压缩模块。同时在 token 合并前引入窗口注意力（Window Attention），补偿上下文信息。

简单说就是，在已有结构上巧妙嫁接，尽量不破坏原来学好的东西。

效果则是：视觉编码阶段的浮点运算量降低了 55.8%，性能没掉。

省了一半多的图像编码开销。

这也是 MiniCPM-V 4.6 参数量虽然比 Qwen3.5-0.8B 大，推理效率反而更高的关键原因。

另一个创新在视觉 token 的压缩率上。

市面上大部分多模态模型用的是 4 倍压缩率。面壁的 MiniCPM-V 系列从 2024 年就开始支持 16 倍压缩，但以前有个限制：4 倍和 16 倍只能二选一。

4 倍精度高，16 倍速度快。鱼和熊掌，往往不可兼得。

但……MiniCPM-V 4.6 实现了兼得。

需要高精度识别的时候走 4 倍，需要极速推理的时候切 16 倍。端侧和云端的需求，一个模型就可以覆盖。

16 倍压缩率的含金量，其实已经被验证过了。快手 2025 年发布的 OneRec 推荐大模型，在处理视频的字幕、标签、ASR、OCR、封面图等多模态数据时，用的就是 MiniCPM-V-8B。

OneRec 架构
上线后，OneRec 承接了快手短视频推荐主场景 25% 的请求量。

OneRec 数据05

开箱即用、天生爆改

面壁这次，也给开发者准备了一套从微调到部署的完整工具链。

这也在于 1.3B 参数量带来的一个直接好处：一张 RTX 4090 就能跑完全量微调。

以前大模型微调动不动要算力集群，现在，一张消费级显卡就够了。独立开发者、高校团队、初创公司想验证一个多模态的 idea，成本可要比以前低了太多了。

微调框架上，官方原生支持了 ms-swift 和 LLaMA-Factory，准备好数据改几行配置就能跑起来。

部署端也是全家桶适配：vLLM、SGLang、llama.cpp、Ollama。云端上 vLLM 跑高并发，端侧用 llama.cpp 或 Ollama 跑离线，都是现成的方案。

还有个端侧部署指南，手机、平板、开发板都能轻松接入，可以扔给你的 Claude Code 或 Codex 看看。

不管是垂类文档解析、工业缺陷检测还是其他场景，可以说，面壁这个 1.3B 的小底座，天生就为「爆改」而生。
06

密度定律

MiniCPM-V 系列从 2024 年 4 月至今，已经迭代了六个版本。

从 2.8B 起步，到 8B 越级超 GPT-4V，再压回 4B 性能反升，每一代都在同级别拿到最强。

到今天的 4.6 版，参数压到了 1.3B。系列最小，同级最强。

两年下来，MiniCPM-V 霸榜 GitHub Trending 和 HuggingFace 趋势榜，开源累计下载量近 3000 万次。相关成果登上了 Nature 子刊，还经历过斯坦福团队套壳事件……也算是技术路线被国际同行认可的一种证明。

越做越小，越做越强。

面壁 2024 年提出的「密度定律」，到今天算是自己验证了一遍又一遍。

而参数越小，能跑的设备越多。能跑的设备越多，AI 能触达的场景就越广。

这大概也是，「密度」的另一种解释和意义了。

◇ ◆ ◇