lxiol

—title: 一个0.1B的小模型,正在做一件大厂不愿意做的事
date: 2026-04-19 22:03:24
summary: 1B的小模型,正在做一件大厂不愿意做的事 date: 2026-04-19 22:03:24 summary: 上周有个朋友问我,他想给自己的视频加配音,问我有没有推荐的工具
tags:

上周有个朋友问我,他想给自己的视频加配音,问我有没有推荐的工具。

上周有个朋友问我,他想给自己的视频加配音,问我有没有推荐的工具。

我说你可以试试某某平台,他说用过,效果还行,但每个月要订阅,而且声音听起来总有点”机器味”。

我说那你可以调API,他说不会。

这个对话让我想起一件事——AI配音这件事,一直有个隐形门槛:要么花钱,要么有技术背景,要么两者都要。

但最近复旦大学自然语言处理实验室和MOSI.AI联合发布了一个东西,让我觉得这个门槛快被打穿了。

0.1B,这个数字意味着什么

image

这个项目叫MOSS-TTS-Nano,是个开源的语音合成模型。

它的参数量只有0.1B——也就是1亿参数。

你可能没什么概念,我换个说法:GPT-4据说有1.8万亿参数,就连很多”轻量级”的本地模型也动辄七八十亿。0.1B在这个圈子里,真的算是”纳米级”。

但更关键的不是参数量,是这句话:可以直接在CPU上运行,不需要GPU。

这意味着什么?意味着你的普通笔记本电脑,就能跑起来一个实时语音合成系统。不用买显卡,不用租云服务器,不用调API,不用付月费。

它能做什么

image

说几个具体的能力:

支持20种语言,包括中文、英文、日语、韩语、法语、德语、阿拉伯语……基本上你能想到的主流语言都覆盖了。

输出是48kHz双声道,这个音质标准放在专业播客里也够用。

最有意思的功能是声音克隆——你给它一段参考音频,它就能用那个声音来合成新的文字。

怎么装起来

不需要任何付费账号,全程在自己电脑上操作。

第一步,确认你电脑装了Python 3.12。没装的话去 python.org 下载,装完重启终端。

第二步,打开终端,把项目下载到本地:

1
2
3
4
````
`git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano`
````

第三步,安装依赖:

1
2
3
4
````
`pip install -r requirements.txt
pip install -e .`
````

这一步会自动下载模型文件,第一次大概需要几分钟,取决于网速。模型文件会缓存在本地,之后每次启动很快。

装完怎么用

声音克隆只需要一行命令,给它一段参考音频,它就能用那个声音合成新内容:

1
2
3
4
5
````
`python infer.py \
  --prompt-audio-path 你的参考音频.wav \
  --text "你想合成的文字内容"`
````

不想敲命令的话,还有本地网页界面——python app.py 启动之后,浏览器打开就能用,点点鼠标就行。

为什么这件事值得关注

TTS(文字转语音)这个领域,其实一直有个奇怪的现象:技术进步很快,但真正好用的工具,要么贵,要么封闭。

商业产品里,ElevenLabs、微软Azure TTS、讯飞,效果都不错,但都是按字数或按时长收费的。你要做个人项目、做播客、做有声书,成本加起来不低。

开源方案里,之前也有一些,但要么需要GPU,要么部署复杂,要么效果差强人意。

MOSS-TTS-Nano的出现,填的就是这个空白:效果够用、本地运行、不需要专业硬件、完全开源免费。

它不是最好的TTS,复旦自己的旗舰版MOSS-TTS有8B参数,效果肯定更好。但Nano版本的定位很清晰——给那些需要”够用就行”的场景用的。

个人创作者、独立开发者、想做本地语音助手的人,这个模型值得认真看一眼。

一个更大的背景

这个项目背后是复旦大学NLP实验室和MOSI.AI,他们在做的不只是这一个模型,而是一整个”MOSS-TTS家族”。

从8B的旗舰版,到1.7B的对话版,再到这个0.1B的Nano版,还有专门做声音设计、环境音效、实时语音的版本——这是一套完整的语音生成体系,而且全部开源。

说实话,这种规模的开源语音模型,在国内团队里不多见。

目前项目在GitHub上有659个star,刚发布没几天,关注度还在快速增长。

我的判断

语音合成这件事,正在经历和图像生成类似的路径:从大厂专属,到开源平民化,再到人人可用。

图像生成走完这条路用了大概两年,Stable Diffusion出来之后,任何人都能在自己电脑上跑图像生成。

语音合成现在走到哪了?我觉得MOSS-TTS-Nano这类模型的出现,说明这个拐点已经到了。

接下来值得关注的,是这类本地语音模型和AI助手、播客工具、有声书平台的结合——当语音合成的边际成本趋近于零,内容创作的形态会怎么变?

这个问题,我还没想清楚。但我觉得值得盯着。

都看到这儿了,说明咱们有缘 😄 动动手指,赞 · 在看 · 转发三连一下,算是给我一点写下去的动力~ 加个星标 ⭐ 不迷路,我们下次再见!

本文转载自微信公众号,如有侵权请联系删除。

  • 标题:
  • 作者: lxiol
  • 创建于 : 2026-04-19 22:03:24
  • 更新于 : 2026-04-29 20:21:28
  • 链接: https://blog.lxiol.cn/2026/04/19/一个01B的小模型正在做一件大厂不愿意做的事/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。