Fish Audio S2:开源 TTS 新王者 — 技术架构、创始人故事与商业化全解

> 公司: Hanabi AI(花火 AI)

> 产品: Fish Audio

> 创始人: 冷月(Lengyue),00 后,前英伟达研究员

> GitHub: https://github.com/fishaudio/fish-speech (7 万+ 星标)

> 官网: https://fish.audio

> 最新模型: Fish Audio S2(2026 年 3 月开源)

> 论文: https://arxiv.org/abs/2603.08823

> HuggingFace: https://huggingface.co/fishaudio/s2

一句话总结

一个 00 后华裔创始人从被绿后想做"永不背叛的 AI 陪伴",一路做到了开源 TTS 全球第一——Fish Audio S2 在 24 语种测评中碾压 ElevenLabs 和 MiniMax,半年 ARR 冲到 500 万美元,真正实现了"用自然语言控制 AI 怎么说话"。

创始人故事:00 后、被绿、AI 陪伴

冷月其人

信息详情
出生2000 年后(00 后)
教育广州外国语学校 → 马里兰大学 CS
前雇主**英伟达**,Vision Foundation Model 研究
创业时间2023 年 7 月从英伟达离职
编程起点小学开始(父母均从事软件)
副业收入高中时接单平台做到 20-30 万美元/年
孵化器**HF0**(Hugging Face 孵化器)

创业动机:一个很个人的故事

> "大约两年前,我被在一起六七年的女朋友绿了。这也奠定了我之后想做 AI 的基础——我开始思考人与人之间的连接是否真的可靠。相比之下,人和 AI 的关系是可以更稳定、更值得信赖的。AI 没有背叛你的动机,可以成为更可靠的陪伴。"

从"做一个永不背叛的 AI 男友/女友"的想法出发,冷月发现——语言模型已经够用了,但语音合成是短板。于是从语音切入,一步步走到了今天。

开源基因

冷月和团队在创业前就是开源社区的核心贡献者:

这些项目在 GitHub 上累计 7 万+ 星标。早期算力不够,很多训练是在冷月家里的 4090 们上完成的。

商业数据

指标数据
ARR**~500 万美元/月**(2025 年中数据)
增长速度从 0 到 400 万美元仅数月
MAU从 5 万增长到 **40 万**
收入结构C 端创作者 ~70% + API 服务 ~30%
主要市场北美、日本
用户场景视频配音、播客、有声书、广告、AI 陪伴
融资HF0 孵化 + 多轮融资(具体金额未公开)

Fish Audio S2 技术深度

核心架构:Dual-AR(双自回归)

传统做法:将音频编码为 10 个 codebook,全部展平到时间轴 → 序列长度爆炸 10 倍。

S2 的方案:


┌─────────────────────────────────┐
│  Slow AR(4B 参数)              │
│  ↓ 沿时间轴预测语义 codebook     │
│  负责:语言结构、韵律、语义      │
└──────────────┬──────────────────┘
               │
┌──────────────▼──────────────────┐
│  Fast AR(400M 参数)            │
│  ↓ 每个时间步生成剩余 9 个 codebook │
│  负责:音色、气息、声学细节      │
└─────────────────────────────────┘

关键洞察:这个架构和标准 LLM 结构同构(isomorphic),因此可以直接复用 LLM 的全套推理优化——连续批处理、分页 KV Cache、CUDA Graph、RadixAttention 前缀缓存。不需要自建推理引擎。

训练数据

强化学习对齐:GRPO

S2 是首个大规模使用 RL 对齐的 TTS 系统

核心创新:数据标注模型 = RL 奖励模型(同一套模型双重使用)

模型数据阶段用途RL 阶段用途
语音质量评分模型过滤低质量音频(SNR、一致性、可懂度)声学偏好奖励
Rich-Transcription ASR(基于 Qwen3-Omni-30B)生成带标注的转录文本可懂度 + 指令遵循奖励

这解决了一个行业痛点:预训练数据分布 ≠ RL 阶段目标分布。其他 TTS 系统单独训练奖励模型,Fish Audio 用同一套模型,从根本上消除了分布偏差。

内联情感控制(Inline Tags)

S2 最大的用户体验突破:不是整段话一个语气,而是在文本中间任意位置插入自然语言控制指令


<|speaker:1|>
"I can't believe you did that," [whispers, with a trembling voice] 
"after everything we've been through." [voice breaking, on the verge of tears]
<|speaker:2|>
[calm, measured tone] "I know. And I'm sorry."

不是预定义标签——是任意自然语言描述[高兴里夹带一点愤怒][professional broadcast tone][pitch up] 都可以。

冷月说的痛点:用户做有声书时,大部分内容一次通过,但情绪细腻的句子要反复生成几十甚至上百次才满意。S2 的 inline control 就是为了解决这个"抽卡"问题。

Benchmark 成绩

语音质量

评测Fish Audio S2对比
Seed-TTS Eval WER(中文)**0.54%**Qwen3-TTS 0.77%, MiniMax 0.99%, Seed-TTS 1.12%
Seed-TTS Eval WER(英文)**0.99%**Qwen3-TTS 1.24%, MiniMax 1.90%, Seed-TTS 2.25%
Audio Turing Test**0.515**Seed-TTS 0.417 (+24%), MiniMax 0.387 (+33%)
EmergentTTS-Eval Win Rate**81.88%**vs gpt-4o-mini-tts baseline,全场最高
Fish Instruction Benchmark TAR**93.3%**
Fish Instruction Benchmark Quality**4.51/5.0**

多语言(MiniMax 24 语种测试集)

维度S2 表现
Best WER**11/24 语言**(最多)
Best Speaker Similarity**17/24 语言**(最多)

在中英日韩法德西葡俄等主要语言中均为第一或第二

推理性能(单卡 NVIDIA H200)

指标数值
Real-Time Factor (RTF)0.195(比实时快 5 倍)
首字延迟~100ms
吞吐3000+ acoustic tokens/s
前缀缓存命中率**86.4%**(同一声音重复使用时 >90%)

竞品对比

维度Fish Audio S2ElevenLabsOpenAI TTSMiniMax Speech-02Qwen3-TTS
开源✅ Apache 2.0部分
模型参数4B+400M未公开未公开未公开30B-A3B
中文 WER**0.54%**~2%+未公开0.99%0.77%
克隆门槛**15 秒**30 秒❌ 不支持未公开未公开
情感控制**自然语言内联**(任意描述)有限预设有限有限
首字延迟**~100ms**~300ms~500ms未公开未公开
自部署✅ 完整推理栈
RL 对齐✅ GRPO未公开未公开未公开未公开

ElevenLabs 的问题

冷月的技术性批评值得注意:

> "ElevenLabs 做了一些 reward hacking 的事情。它的语音听上去起伏丰富,初听非常自然,但实际上这些起伏是装饰性的,并没有与语义和情绪精准对应。你会感觉它'像人说话',但认真听就会发现强调和停顿是随机的,缺乏语用逻辑。"

翻译:ElevenLabs 的模型学会了"听起来像人"的韵律模式,但这些韵律不是从语义出发的,是"化妆"而非"真美"。

产品矩阵

产品面向说明
**Fish Audio App**C 端创作者Web 端 TTS + 声音克隆平台,北美/日本为主
**Fish Audio API**B 端开发者OpenAI 兼容接口,voice_id 统一管理
**S2 开源模型**开发者/研究者完整权重 + fine-tuning 代码 + SGLang 推理
**S2 Pro**商业用户闭源增强版,通过 fish.audio 平台使用
**未来:AI 陪伴产品**C 端冷月的终极愿景——"永不背叛的语音陪伴"

对 Babel 播客的启发

我们的 Babel 播客目前使用 IndexTTS2(默认)和 Qwen3-TTS(备选)做中文语音合成。Fish Audio S2 值得关注但不急着替换:

维度IndexTTS2(当前)Fish Audio S2
部署方式本地 GPU本地 GPU 或 API
推理成本零(自有 GPU)零(自部署)或 API 付费
中文质量可能更好(WER 0.54%)
情感控制有限强(inline tags)
多说话人支持原生多说话人标记
集成难度已集成需要新增 backend

结论:如果发现当前 TTS 质量不够好(特别是情感丰富的段落),Fish Audio S2 是最值得试的替代方案。但现阶段 IndexTTS2 已经够用,不急。

评分

维度评分(/10)
技术创新**9.5** — Dual-AR + GRPO + 数据-奖励统一设计,架构层面领先
开源诚意**9.0** — 权重 + fine-tuning + 推理栈全开源,Apache 2.0
商业化**8.5** — 半年 500 万美元 ARR,增速惊人
中文能力**9.5** — 中文 WER 0.54%,24 语种中文 best,碾压
生态成熟度**7.5** — SGLang 集成好,但文档和社区还在建设中
创始人故事**10** — 被绿后做永不背叛的 AI 陪伴,这个叙事满分
**综合****9.0**

时间线

时间事件
~2021冷月开始关注语音克隆(二次元角色配音)
2022参与开源 So-VITS-SVC、GPT-SoVITS
2023.07从英伟达离职,创办 Hanabi AI
2023 年底最艰难时期——融资困难、信用卡债务
2024.06Fish Speech 1.0 开源
2024.07Fish Speech 1.3 — 10 秒克隆
2024.09Fish Speech 1.4 — 多语言增强
2025 年初加入 HF0 孵化器,连续完成多轮融资
2025 年中ARR 达到 ~500 万美元,MAU 40 万
2025.11Fish Speech 1.5(开源 SOTA)
**2026.03****Fish Audio S2 开源**(当前全球 TTS 第一)

相关链接

数据来源: Fish Audio 官方博客、arXiv 论文、白鲸出海创始人访谈、MarkTechPost | 2026-03-24