AI 工具
English

ChatTTS 实测:3.9 万星的开源中文语音合成,真有那么神吗?

ChatTTS 是一款专为对话场景设计的开源 TTS 模型,在 GitHub 攒了 3.9 万星。我用它做了一周的有声内容,聊聊它的真实表现和踩过的坑。

TTS语音合成中文语音AI 配音PyTorch

广告

ChatTTS 实测:3.9 万星的开源中文语音合成,真有那么神吗?

我做自媒体一年多了,一直在找一个靠谱的免费 TTS 工具——商业版的微软 Azure 和 ElevenLabs 太贵,本地跑的传统 TTS 听着像八十年代的合成器。直到 ChatTTS 出现,我第一次有了”诶,这个真能用”的感觉。

项目背景

ChatTTS 由 2noise 团队开源,2024 年发布,到现在 GitHub 上已经有 3.9 万星。它的定位很特别:不是通用 TTS,而是专门优化对话场景的语音合成模型。换句话说,它说出来的话有自然的停顿、犹豫、笑声,听感上更像真人聊天而不是新闻播报。

底层基于 PyTorch,模型尺寸大概 1GB 左右。License 是 AGPL-3.0(注意这点),最近一次更新是 2026 年 4 月。

它到底强在哪

1. 韵律真的接近真人

我对比过 ChatTTS、Bark、edge-tts、和某讯飞 API。同样一段播客脚本,ChatTTS 的”呼吸感”明显最好——它会在长句子中间自然停顿,该轻读的地方轻读,问句末尾的尾音也处理得自然。

特别是中文,它能正确处理”啊、嗯、呃”这种语气词,不会像传统 TTS 那样一字一顿地念出来。

2. 中英混合不打架

我录技术类内容经常中英混杂,比如”用 Python 写个 RESTful API”这种。很多 TTS 处理这种句子要么把英文当中文拼音念,要么口音切换得很生硬。ChatTTS 的处理流畅得让我惊讶——发”Python”的时候是英文发音,衔接到中文也没什么割裂感。

3. 支持音色微调

通过 speaker embedding,你可以”采样”一个音色然后保留下来。我把它跑出来的几个不错的音色保存为 pt 文件,以后做内容直接复用,声音风格保持一致。这个功能对系列化内容创作者来说太友好了。

4. 推理速度可以接受

在我的 RTX 3060 12GB 上,合成一段 30 秒的音频大概需要 5-8 秒。M1 Pro 的 Mac 用 MPS 后端跑也能用,但比 CUDA 慢一截。

怎么快速跑起来

最简单的方式是用官方的 webui:

git clone https://github.com/2noise/ChatTTS
cd ChatTTS
pip install -r requirements.txt
python examples/web/webui.py

跑起来后浏览器开 localhost:8080,把文本贴进去,选个 random_speaker,点生成就行。

如果想代码集成,核心就几行:

import ChatTTS
import torchaudio

chat = ChatTTS.Chat()
chat.load_models()

texts = ["大家好,今天给大家介绍一个开源的 TTS 项目"]
wavs = chat.infer(texts)

torchaudio.save("output.wav", torch.from_numpy(wavs[0]), 24000)

第一次运行会自动从 HuggingFace 下载模型,大概 1.2GB,网络不好的话建议手动下载放到 ~/.cache/huggingface/hub 里。

但它也不是完美的

显存吃得有点猛。文档说 4GB 显存够用,我实际跑下来,生成 30 秒以上的音频时,12GB 卡都偶尔会 OOM。如果你机器只有 8GB 显存,合成长内容前最好把文本切短点。

长文本会不稳定。一次性扔进去超过 200 字的文本,合成结果有时候会出现奇怪的音调跳跃,或者末尾突然变快。最佳实践是按句号切分,一段一段合成再拼接。

情感控制不够细。虽然支持加 [laugh] [uv_break] 这类控制标签,但具体的情感强度(比如”开心一点点”还是”非常开心”)没法精确控制。这点 ElevenLabs 做得更好——但人家收钱嘛。

License 是 AGPL-3.0。这点要特别提醒商业用户:AGPL 的传染性很强,如果你拿它做商业 SaaS 产品,可能要把你自己的代码也开源出来。仔细做闲鱼小工具或个人项目不受影响,但企业级使用前最好咨询法务。

中文方言不行。它默认训练数据以普通话为主,粤语、四川话之类的方言基本没法生成。

跟同类工具比

Bark(Suno):覆盖语种更多,但中文质量明显不如 ChatTTS,韵律比较生硬。

edge-tts:免费,微软 Azure 的伪装版,中文质量很好但是云端的,且 API 可能哪天就被封。

MeloTTS:训练时间快、模型小,但音色单调,缺少 ChatTTS 那种”对话感”。

XTTS(Coqui):多语种支持强,可以零样本克隆,但中文表现一般,商业 License 也限制比较多。

要纯做中文对话内容,ChatTTS 目前是开源里最强的选择,没有之一。

谁适合用

播客主、有声书制作者、做视频解说的、技术博主想做配套音频版本……都很适合。特别是需要批量生产长内容,商用 TTS 的成本会让人肉疼,ChatTTS 一次部署,无限使用。

但如果你只是想做几条 TikTok 配音,直接用免费的 edge-tts 或者 CapCut 自带的 TTS 反而更省事——折腾本地部署的时间够你出十条视频了。

总结

ChatTTS 的 3.9 万星不是水分。它在中文对话场景的表现,确实让开源 TTS 上了一个台阶。我现在的工作流里,长内容(超过 5 分钟)全部交给它处理,商业 TTS 服务的订阅已经退掉了。

唯一让我犹豫的是 AGPL License,如果你打算把它做成 SaaS 卖钱,这点必须想清楚。但对个人创作者和内部使用,它就是个香喷喷的免费午餐。

GitHub: https://github.com/2noise/ChatTTS


关于作者

柳钉鱼,全栈开发者,GitHub 重度用户。过去 3 年 Star 了 900+ 仓库,这里只写我真正用过或深度调研过的工具。

📧 发现好工具想推荐?发邮件到 [email protected]

广告

相关文章