—title: 一个0.1B的小模型，正在做一件大厂不愿意做的事
date: 2026-04-19 22:03:24
summary: 1B的小模型，正在做一件大厂不愿意做的事 date: 2026-04-19 22:03:24 summary: 上周有个朋友问我，他想给自己的视频加配音，问我有没有推荐的工具
tags:

终端
浏览器
Git
开源
Python
LLM
部署
Token优化
AI
小模型
开源
轻量
categories:
转载—

原文链接：https://mp.weixin.qq.com/s/BzsoXdU5yUcHCeWUN5li6g

上周有个朋友问我，他想给自己的视频加配音，问我有没有推荐的工具。

上周有个朋友问我，他想给自己的视频加配音，问我有没有推荐的工具。

我说你可以试试某某平台，他说用过，效果还行，但每个月要订阅，而且声音听起来总有点”机器味”。

我说那你可以调API，他说不会。

这个对话让我想起一件事——AI配音这件事，一直有个隐形门槛：要么花钱，要么有技术背景，要么两者都要。

但最近复旦大学自然语言处理实验室和MOSI.AI联合发布了一个东西，让我觉得这个门槛快被打穿了。

0.1B，这个数字意味着什么

这个项目叫MOSS-TTS-Nano，是个开源的语音合成模型。

它的参数量只有0.1B——也就是1亿参数。

你可能没什么概念，我换个说法：GPT-4据说有1.8万亿参数，就连很多”轻量级”的本地模型也动辄七八十亿。0.1B在这个圈子里，真的算是”纳米级”。

但更关键的不是参数量，是这句话：可以直接在CPU上运行，不需要GPU。

这意味着什么？意味着你的普通笔记本电脑，就能跑起来一个实时语音合成系统。不用买显卡，不用租云服务器，不用调API，不用付月费。

它能做什么

说几个具体的能力：

支持20种语言，包括中文、英文、日语、韩语、法语、德语、阿拉伯语……基本上你能想到的主流语言都覆盖了。

输出是48kHz双声道，这个音质标准放在专业播客里也够用。

最有意思的功能是声音克隆——你给它一段参考音频，它就能用那个声音来合成新的文字。

怎么装起来

不需要任何付费账号，全程在自己电脑上操作。

第一步，确认你电脑装了Python 3.12。没装的话去 python.org 下载，装完重启终端。

第二步，打开终端，把项目下载到本地：

````
`git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano`
````

第三步，安装依赖：

````
`pip install -r requirements.txt
pip install -e .`
````

这一步会自动下载模型文件，第一次大概需要几分钟，取决于网速。模型文件会缓存在本地，之后每次启动很快。

装完怎么用

声音克隆只需要一行命令，给它一段参考音频，它就能用那个声音合成新内容：

````
`python infer.py \
  --prompt-audio-path 你的参考音频.wav \
  --text "你想合成的文字内容"`
````

不想敲命令的话，还有本地网页界面——python app.py 启动之后，浏览器打开就能用，点点鼠标就行。

为什么这件事值得关注

TTS（文字转语音）这个领域，其实一直有个奇怪的现象：技术进步很快，但真正好用的工具，要么贵，要么封闭。

商业产品里，ElevenLabs、微软Azure TTS、讯飞，效果都不错，但都是按字数或按时长收费的。你要做个人项目、做播客、做有声书，成本加起来不低。

开源方案里，之前也有一些，但要么需要GPU，要么部署复杂，要么效果差强人意。

MOSS-TTS-Nano的出现，填的就是这个空白：效果够用、本地运行、不需要专业硬件、完全开源免费。

它不是最好的TTS，复旦自己的旗舰版MOSS-TTS有8B参数，效果肯定更好。但Nano版本的定位很清晰——给那些需要”够用就行”的场景用的。

个人创作者、独立开发者、想做本地语音助手的人，这个模型值得认真看一眼。

一个更大的背景

这个项目背后是复旦大学NLP实验室和MOSI.AI，他们在做的不只是这一个模型，而是一整个”MOSS-TTS家族”。

从8B的旗舰版，到1.7B的对话版，再到这个0.1B的Nano版，还有专门做声音设计、环境音效、实时语音的版本——这是一套完整的语音生成体系，而且全部开源。

说实话，这种规模的开源语音模型，在国内团队里不多见。

目前项目在GitHub上有659个star，刚发布没几天，关注度还在快速增长。

我的判断

语音合成这件事，正在经历和图像生成类似的路径：从大厂专属，到开源平民化，再到人人可用。

图像生成走完这条路用了大概两年，Stable Diffusion出来之后，任何人都能在自己电脑上跑图像生成。

语音合成现在走到哪了？我觉得MOSS-TTS-Nano这类模型的出现，说明这个拐点已经到了。

接下来值得关注的，是这类本地语音模型和AI助手、播客工具、有声书平台的结合——当语音合成的边际成本趋近于零，内容创作的形态会怎么变？

这个问题，我还没想清楚。但我觉得值得盯着。

都看到这儿了，说明咱们有缘 😄 动动手指，赞 · 在看 · 转发三连一下，算是给我一点写下去的动力~ 加个星标 ⭐ 不迷路，我们下次再见！

本文转载自微信公众号，如有侵权请联系删除。