参数砍到 1B,这个小钢炮拿下多模态第一

lxiol
📝
1.3B 参数拿下同级综合第一,推理吞吐量是同行的 1.5 倍。

原文链接:https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA

1.3B 参数拿下同级综合第一,推理吞吐量是同行的 1.5 倍。

今天,面壁智能发布并开源了 MiniCPM-V 4.6,MiniCPM-V 系列有史以来最小的模型,参数量只有 1.3B。

小归小,但其多模态综合能力则在 1B 级别里,拿到了第一。

Artificial Analysis 智能指数
01

为什么做小

你可能会有些疑问:不都大模型吗?为什么要小?小有啥子用?

8B 的模型跑在服务器上、在 OpenAI 和 Anthropic 的机房里、在你的 4090 上……当然没什么问题,但到了手机、车机、智能家居这些终端设备上,就有点跑不动了。

参数越大,推理越慢,功耗越高,能适配的芯片、运行的环境也就会越少。

模型尺寸 vs 设备覆盖

模型尺寸 vs 设备覆盖
打个比方吧,8B 像大巴车,宽敞舒适,但只能走大路。1B 呢,则更像是辆电动自行车,大街小巷随便钻,北京胡同也能玩,随到随停。

做到 1B 这个级别,基本上市面上所有手机和电脑,都能高效跑起来了。

你手里的手机,当然也轻松能跑。

面壁智能此前的比这次更大一些的端侧模型,就已经在联想、吉利、上汽大众等不少 B 端客户的产品里落地。

这些客户的共同诉求,就这一个字:小。

越小,能装进的设备就越多,能覆盖的场景就越广,越能满足各类用户群体的定位。
02

小但能打

而这么个 1.3B 的参数量,会不会能力有所缩水呢?

答案是:不会

来看下成绩。

MiniCPM-V 4.6 在多模态综合评测中超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it,在 1B 级别的所有模型中拿到了最好的成绩。

它有 Instruct 和 Thinking 两个版本,Instruct 快速响应日常任务,Thinking 遇到复杂推理时会深度思考。

Instruct 评测成绩

Thinking 评测成绩

而这之外,更能说明问题的是:效率。

在 Artificial Analysis 评测中,MiniCPM-V 4.6 仅用了 Qwen3.5-0.8B 2.5% 的 token 量,就超过了对方的得分。


Artificial Analysis token 用量对比
注意:2.5%,也就是 40 分之一。


Artificial Analysis 智能指数 vs token 数量
换个说法,别人用一整本书才讲完的事儿,它一页纸就说清楚了。

Artificial Analysis 整体成绩
这个「智能密度」在同尺寸模型中排到了最高,也算是又一次验证了面壁智能 2024 年提出并登上 Nature 子刊的「密度定律」。

密度定律验证03

超快推理

能力强只是一面,推理速度也是非常迅速。

我们在面壁手机 APP 下载模型后,直接断网进行上手体验,这样更为直观。下面的两个演示,完全的跑在手机端侧(不经过任何云端 api),用的是 MiniCPM-V 4.6 INT4 量化版本。

第一个是文档识别。我们把一张拍英文论文截图上传后,让它识别文字,表格输出 HTML,公式输出 LaTeX:

论文识别演示

论文识别演示
大约 5 秒,就跑完了:表格结构、数学公式、正文段落,全都识别正确。

再来试一个偏生活化的场景:拍一张英文餐厅菜单,然后问它:「帮我把饮料翻译成中文。」

菜单问答:翻译饮料

菜单问答:翻译饮料
几乎就是秒回……于是我们再追问一句:「最便宜的主菜是哪个?」

菜单问答:追问最便宜的菜

菜单问答:追问最便宜的菜
同样秒回:Cheese Sandwich,$2。

多轮对话、图片理解、中英翻译、价格比较,全都在手机上完成,不需要联网。

MiniCPM-V 4.6(16 倍压缩模式)基于 vLLM 的单卡高并发吞吐量达到了 2624 token/s。处理 1344² 分辨率的图片,则能跑到 14.3 张/秒

是 Qwen3.5-0.8B 的 1.5 倍。

换句话说,同一张显卡,部署 MiniCPM-V 4.6 能承接的线上流量显著多于同级对手。对租两小时 AutoDL 跑着玩儿的可能没啥,但对企业来说,这相当于 GPU 成本真金白银的直接减少。

首响延迟方面,也同样拉开了差距。

低分辨率(448²)的时候,两个模型的 TTFT 差不多,都在 30ms 左右。但随着分辨率往上走,曲线就开始分叉了。

到 3136² 的高清大图,MiniCPM-V 4.6 的 TTFT 是 75.7ms,Qwen3.5-0.8B 则需要 168.6ms,快了 2.2 倍。

图片越大,MiniCPM-V 4.6 的优势越明显。

原因很好理解,16 倍视觉 token 压缩让序列更短、KV-Cache 更小,高分辨率下的计算膨胀被压住了。
04

怎么做到的呢?

又小、又快、能力还有点强,这背后是两个模型架构层面的创新。

我们知道,在进行多模态模型处理图片时,需要先通过 ViT(Vision Transformer)把图像编码成一串视觉 token,再交给语言模型去理解。

所以图片分辨率越高,token 越多,计算量就越大。

常规的做法是,等 ViT 编码完之后,再接一个压缩模块来减少 token 数量。这样确实能减轻语言模型的负担,但 ViT 内部的那一大堆计算量,一点都没省下来。

那……能不能把压缩往前挪呢?

越早压缩,后面的 ViT 层需要处理的 token 就越少。

LLaVA-UHD v4 架构

LLaVA-UHD v4 架构
面壁智能和清华大学联合研发的 LLaVA-UHD v4,核心思路就是这个。

把视觉 token 压缩前移到 ViT 内部的浅层。

但直接在浅层插一个随机初始化的压缩模块……会严重破坏 ViT 已经学好的视觉表征,训练代价太高了,效果也可能掉点。

这里的解法是:复用相邻预训练 ViT 层的参数来初始化这个压缩模块。同时在 token 合并前引入窗口注意力(Window Attention),补偿上下文信息。

简单说就是,在已有结构上巧妙嫁接,尽量不破坏原来学好的东西。

效果则是:视觉编码阶段的浮点运算量降低了 55.8%,性能没掉。

省了一半多的图像编码开销。

这也是 MiniCPM-V 4.6 参数量虽然比 Qwen3.5-0.8B 大,推理效率反而更高的关键原因。

另一个创新在视觉 token 的压缩率上。

市面上大部分多模态模型用的是 4 倍压缩率。面壁的 MiniCPM-V 系列从 2024 年就开始支持 16 倍压缩,但以前有个限制:4 倍和 16 倍只能二选一。

4 倍精度高,16 倍速度快。鱼和熊掌,往往不可兼得。

但……MiniCPM-V 4.6 实现了兼得。

需要高精度识别的时候走 4 倍,需要极速推理的时候切 16 倍。端侧和云端的需求,一个模型就可以覆盖。

16 倍压缩率的含金量,其实已经被验证过了。快手 2025 年发布的 OneRec 推荐大模型,在处理视频的字幕、标签、ASR、OCR、封面图等多模态数据时,用的就是 MiniCPM-V-8B。

OneRec 架构

OneRec 架构
上线后,OneRec 承接了快手短视频推荐主场景 25% 的请求量

OneRec 数据

OneRec 数据05

开箱即用、天生爆改

面壁这次,也给开发者准备了一套从微调到部署的完整工具链。

这也在于 1.3B 参数量带来的一个直接好处:一张 RTX 4090 就能跑完全量微调

以前大模型微调动不动要算力集群,现在,一张消费级显卡就够了。独立开发者、高校团队、初创公司想验证一个多模态的 idea,成本可要比以前低了太多了。

微调框架上,官方原生支持了 ms-swift 和 LLaMA-Factory,准备好数据改几行配置就能跑起来。

部署端也是全家桶适配:vLLM、SGLang、llama.cpp、Ollama。云端上 vLLM 跑高并发,端侧用 llama.cpp 或 Ollama 跑离线,都是现成的方案。

还有个端侧部署指南,手机、平板、开发板都能轻松接入,可以扔给你的 Claude Code 或 Codex 看看。

不管是垂类文档解析、工业缺陷检测还是其他场景,可以说,面壁这个 1.3B 的小底座,天生就为「爆改」而生。
06

密度定律

MiniCPM-V 系列从 2024 年 4 月至今,已经迭代了六个版本。

越做越小越强

从 2.8B 起步,到 8B 越级超 GPT-4V,再压回 4B 性能反升,每一代都在同级别拿到最强。

到今天的 4.6 版,参数压到了 1.3B。系列最小,同级最强。

两年下来,MiniCPM-V 霸榜 GitHub Trending 和 HuggingFace 趋势榜,开源累计下载量近 3000 万次。相关成果登上了 Nature 子刊,还经历过斯坦福团队套壳事件……也算是技术路线被国际同行认可的一种证明。

越做越小,越做越强。

面壁 2024 年提出的「密度定律」,到今天算是自己验证了一遍又一遍。

而参数越小,能跑的设备越多。能跑的设备越多,AI 能触达的场景就越广。

这大概也是,「密度」的另一种解释和意义了。

◇ ◆ ◇

相关链接:

•  HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4.6

•  GitHub:https://github.com/OpenBMB/MiniCPM-V

•  ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

•  Web Demo:https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

•  App Demo:https://github.com/OpenBMB/MiniCPM-V-Apps


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: 参数砍到 1B,这个小钢炮拿下多模态第一
  • 作者: lxiol
  • 创建于 : 2026-05-18 14:59:48
  • 更新于 : 2026-05-18 14:59:48
  • 链接: https://blog.lxiol.cn/2026/05/18/参数砍到-1B这个小钢炮拿下多模态第一/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。