DeepSeek、Granite、Olmo 同时赢

lxiol
📝
DeepSeek 自己做过一组对照实验: 同尺寸、同底座,蒸馏版完胜直接 RL 训练。这件事戳穿了一个被反复说的叙事—— “小模型是大模型的平替”

原文链接:https://mp.weixin.qq.com/s/3BxoeDI4-YNeYU669Mtrsg

DeepSeek 自己做过一组对照实验:
同尺寸、同底座,蒸馏版完胜直接 RL 训练。

这件事戳穿了一个被反复说的叙事——
“小模型是大模型的平替”。

如果真是平替,那 DeepSeek、Granite、Olmo
应该是同一条路上的三家追赶者。

但拆开看会发现,它们走的根本不是一条路。

DeepSeek 解决的是“推理能力下沉”。
6 个尺寸的蒸馏 checkpoint 全开源,
32B 蒸馏版 MATH-500 拿 94.3,直接超过 o1-mini。
本质是用大模型当老师,把能力压进小模型。

Granite 解决的是“企业能不能在 IT 环境里跑”。
9:1 的 Mamba + Transformer 混合架构,
内存降 70%、推理速度翻倍。
ISO 认证 + 密码学签名 + 边缘 NPU,
这套组合开源圈没有第二家。

Olmo 解决的是“模型能不能被审计”。
9.3 万亿 tokens 训练数据全公开,
中间 checkpoint、训练代码一条不留。
OlmoTrace 工具能从输出反向追溯到训练语料的具体片段。

三种路径,三种产品价值。

把它们都叫“小模型”,
就像把跑车、卡车、自行车都叫“两轮以上交通工具”——
名字对,但买的时候不能这么买。

如果你在评估开源小模型自部署,
先想清楚你解决的是哪个问题:
复杂推理 → DeepSeek
合规部署 → Granite
研究审计 → Olmo

#AI产品日志 #开源小模型 #DeepSeek #Granite #Olmo


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: DeepSeek、Granite、Olmo 同时赢
  • 作者: lxiol
  • 创建于 : 2026-05-06 19:57:33
  • 更新于 : 2026-05-12 16:07:03
  • 链接: https://blog.lxiol.cn/2026/05/06/DeepSeekGraniteOlmo-同时赢/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
目录
DeepSeek、Granite、Olmo 同时赢