阿里提出 SkillRouter：1.2B 小模型解决 8 万技能路由难题

📝

本文提出 SKILLROUTER，一个 1.2B 参数的全文检索—重排路由管线，在约 8 万技能池上取得 74.0% Hit@1，以 13× 更少参数和 5.8× 更低延迟超越 16B 强基线。

原文链接：https://mp.weixin.qq.com/s/reSKCS0iKYneilXC6mNRuw

本文提出 SKILLROUTER，一个 1.2B 参数的全文检索—重排路由管线，在约 8 万技能池上取得 74.0% Hit@1，以 13× 更少参数和 5.8× 更低延迟超越 16B 强基线。

📌 一句话总结：

本文提出 SKILLROUTER，一个 1.2B 参数的全文检索—重排路由管线，在约 8 万技能池上取得 74.0% Hit@1，以 13× 更少参数和 5.8× 更低延迟超越 16B 强基线。

🔍 背景问题：

随着 LLM 智能体技能生态规模膨胀至数万条，技能路由成为下游规划执行的关键瓶颈：

1️⃣ 现有智能体框架默认只暴露技能的 name 和 description，假设元数据足以选对技能，但该假设从未在真实规模下被检验；

2️⃣ 已有基准如 SkillsBench、ToolBench、MetaTool 主要评测下游工具使用，未覆盖大池上游路由在隐藏实现体下的表现；

3️⃣ 社区技能库存在严重重叠，同名或近似功能的技能相互混淆，使得纯语义检索难以区分细粒度差异。

💡 方法简介：

在 80K 技能池上构建含 75 条专家校验查询的基准，分 Easy / Hard 两档，Hard 档注入 780 条同域功能不同的 LLM 干扰项以压测函数级混淆。

通过消融发现：移除技能 body 后，BM25、Qwen3-Emb-8B 和 Qwen3-Emb-8B × Qwen3-Rank-8B 的 Hit@1 分别下降 31.4、38.7、44.0 个百分点；注意力分层诊断显示中间层 name 字段占 3.0% token 却吸引 26.3% 注意力，最后层回归 body，说明并非单纯长度效应。

SKILLROUTER 采用两阶段全文管线：0.6B bi-encoder 从 80K 池中召回 top-20，再由 0.6B cross-encoder 重排，共 1.2B 参数。

训练上提出两个针对同质池的关键适配：三层 false-negative 过滤（name 去重 + trigram Jaccard > 0.6 + embedding 相似度 > 0.92）剔除约 10% 功能等价负例；以及 listwise cross-entropy 重排损失替代 pointwise BCE。

📊 实验结果：

在 80K 主基准上，SR-Emb-0.6B × SR-Rank-0.6B 取得 74.0% Hit@1，超过 16B 的 Qwen3-Emb-8B × Qwen3-Rank-8B 基线 68.0%；8B 扩展版本进一步达到 76.0%。

消融显示 false-negative 过滤贡献 +4.0pp 编码器 Hit@1，listwise 训练比 pointwise 高出 30.7pp，验证两者在同质池中不可或缺。

在独立构建的 SkillBench-Supp（77K 池，256 查询）上同样超越 16B 基线（64.1% vs 63.7%），证明提升不依赖单一基准。

端到端评测覆盖 Kimi-K2.5、glm-5、Claude Sonnet/Opus 4.6 四个编码智能体，SKILLROUTER 相较最强基线路由器在 top-1 / top-10 下平均任务成功率提升 +1.78pp / +2.33pp，其中 Claude 系列更强模型提升达 +3.22pp；真实池 GPU 服务基准上中位延迟仅 495.8ms，显存占用减少 15.8%。

📂 项目主页：

https://github.com/zhengyanzhao1997/SkillRouter

📄 论文原文：

https://arxiv.org/abs/2603.22455

✨ 一句话点评：

SkillRouter 用”body—metadata”的对比首次揭示了技能路由的本质：真正决定选对技能的不是简洁的 description，而是完整的实现体——这意味着未来智能体技能生态的路由层应当从”元数据索引”走向”全文理解”。

💬 本文评论区已开启，但暂无读者留言。

本文转载自微信公众号，如有侵权请联系删除。