DeepSeek、Granite、Olmo 同时赢

📝

DeepSeek 自己做过一组对照实验：同尺寸、同底座，蒸馏版完胜直接 RL 训练。这件事戳穿了一个被反复说的叙事—— “小模型是大模型的平替”

原文链接：https://mp.weixin.qq.com/s/3BxoeDI4-YNeYU669Mtrsg

DeepSeek 自己做过一组对照实验：
同尺寸、同底座，蒸馏版完胜直接 RL 训练。

这件事戳穿了一个被反复说的叙事——
“小模型是大模型的平替”。

如果真是平替，那 DeepSeek、Granite、Olmo
应该是同一条路上的三家追赶者。

但拆开看会发现，它们走的根本不是一条路。

DeepSeek 解决的是“推理能力下沉”。
6 个尺寸的蒸馏 checkpoint 全开源，
32B 蒸馏版 MATH-500 拿 94.3，直接超过 o1-mini。
本质是用大模型当老师，把能力压进小模型。

Granite 解决的是“企业能不能在 IT 环境里跑”。
9:1 的 Mamba + Transformer 混合架构，
内存降 70%、推理速度翻倍。
ISO 认证 + 密码学签名 + 边缘 NPU，
这套组合开源圈没有第二家。

Olmo 解决的是“模型能不能被审计”。
9.3 万亿 tokens 训练数据全公开，
中间 checkpoint、训练代码一条不留。
OlmoTrace 工具能从输出反向追溯到训练语料的具体片段。

三种路径，三种产品价值。

把它们都叫“小模型”，
就像把跑车、卡车、自行车都叫“两轮以上交通工具”——
名字对，但买的时候不能这么买。

如果你在评估开源小模型自部署，
先想清楚你解决的是哪个问题：
复杂推理 → DeepSeek
合规部署 → Granite
研究审计 → Olmo

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。