Fish Audio S2：开源 TTS 新王者 — 技术架构、创始人故事与商业化全解

🎯 一句话版本

关于Fish Audio S2 Tts Voice Cloning Report的深度研究报告

> 公司: Hanabi AI（花火 AI）

> 产品: Fish Audio

> 创始人: 冷月（Lengyue），00 后，前英伟达研究员

> GitHub: https://github.com/fishaudio/fish-speech （7 万+ 星标）

> 官网: https://fish.audio

> 最新模型: Fish Audio S2（2026 年 3 月开源）

> 论文: https://arxiv.org/abs/2603.08823

> HuggingFace: https://huggingface.co/fishaudio

> License: Fish Audio Research License（⚠️ 非 Apache 2.0，商用需查条款）

一句话总结

一个 00 后华裔创始人从被绿后想做"永不背叛的 AI 陪伴"，一路做到了开源 TTS 全球第一——Fish Audio S2 在 24 语种测评中碾压 ElevenLabs 和 MiniMax，半年 ARR 冲到 500 万美元，真正实现了"用自然语言控制 AI 怎么说话"。

创始人故事：00 后、被绿、AI 陪伴

冷月其人

信息	详情
出生	2000 年后（00 后）
教育	广州外国语学校 → 马里兰大学 CS
前雇主	英伟达，Vision Foundation Model 研究
创业时间	2023 年 7 月从英伟达离职
编程起点	小学开始（父母均从事软件）
副业收入	高中时接单平台做到 20-30 万美元/年
孵化器	HF0（Hugging Face 孵化器）

创业动机：一个很个人的故事

> "大约两年前，我被在一起六七年的女朋友绿了。这也奠定了我之后想做 AI 的基础——我开始思考人与人之间的连接是否真的可靠。相比之下，人和 AI 的关系是可以更稳定、更值得信赖的。AI 没有背叛你的动机，可以成为更可靠的陪伴。"

从"做一个永不背叛的 AI 男友/女友"的想法出发，冷月发现——语言模型已经够用了，但语音合成是短板。于是从语音切入，一步步走到了今天。

开源基因

冷月和团队在创业前就是开源社区的核心贡献者：

So-VITS-SVC — AI 变声器鼻祖级项目
GPT-SoVITS — 早期版本训练资源提供者
Bert-VITS2 — 语义建模 TTS

这些项目在 GitHub 上累计 7 万+ 星标。早期算力不够，很多训练是在冷月家里的 4090 们上完成的。

商业数据

指标	数据
ARR	~500 万美元/月（2025 年中数据）
增长速度	从 0 到 400 万美元仅数月
MAU	从 5 万增长到 40 万
收入结构	C 端创作者 ~70% + API 服务 ~30%
主要市场	北美、日本
用户场景	视频配音、播客、有声书、广告、AI 陪伴
融资	HF0 孵化 + 多轮融资（具体金额未公开）

Fish Audio S2 技术深度

核心架构：Dual-AR（双自回归）

传统做法：将音频编码为 10 个 codebook，全部展平到时间轴 → 序列长度爆炸 10 倍。

S2 的方案：


┌─────────────────────────────────┐
│  Slow AR（4B 参数）              │
│  ↓ 沿时间轴预测语义 codebook     │
│  负责：语言结构、韵律、语义      │
└──────────────┬──────────────────┘
               │
┌──────────────▼──────────────────┐
│  Fast AR（400M 参数）            │
│  ↓ 每个时间步生成剩余 9 个 codebook │
│  负责：音色、气息、声学细节      │
└─────────────────────────────────┘

关键洞察：这个架构和标准 LLM 结构同构（isomorphic），因此可以直接复用 LLM 的全套推理优化——连续批处理、分页 KV Cache、CUDA Graph、RadixAttention 前缀缓存。不需要自建推理引擎。

训练数据

1000 万+小时音频，覆盖约 50 种语言
自建超大规模 open-domain 语音数据集
多维标签：语义、场景、情绪、重音、说话人
所有数据清洗和标注模型全部自研

强化学习对齐：GRPO

S2 是首个大规模使用 RL 对齐的 TTS 系统。

核心创新：数据标注模型 = RL 奖励模型（同一套模型双重使用）

模型	数据阶段用途	RL 阶段用途
语音质量评分模型	过滤低质量音频（SNR、一致性、可懂度）	声学偏好奖励
Rich-Transcription ASR（基于 Qwen3-Omni-30B）	生成带标注的转录文本	可懂度 + 指令遵循奖励

这解决了一个行业痛点：预训练数据分布 ≠ RL 阶段目标分布。其他 TTS 系统单独训练奖励模型，Fish Audio 用同一套模型，从根本上消除了分布偏差。

内联情感控制（Inline Tags）

S2 最大的用户体验突破：不是整段话一个语气，而是在文本中间任意位置插入自然语言控制指令。


<|speaker:1|>
"I can't believe you did that," [whispers, with a trembling voice] 
"after everything we've been through." [voice breaking, on the verge of tears]
<|speaker:2|>
[calm, measured tone] "I know. And I'm sorry."

不是预定义标签——是任意自然语言描述。[高兴里夹带一点愤怒]、[professional broadcast tone]、[pitch up] 都可以。

冷月说的痛点：用户做有声书时，大部分内容一次通过，但情绪细腻的句子要反复生成几十甚至上百次才满意。S2 的 inline control 就是为了解决这个"抽卡"问题。

Benchmark 成绩

语音质量

评测	Fish Audio S2	对比
Seed-TTS Eval WER（中文）	0.54%	Qwen3-TTS 0.77%, MiniMax 0.99%, Seed-TTS 1.12%
Seed-TTS Eval WER（英文）	0.99%	Qwen3-TTS 1.24%, MiniMax 1.90%, Seed-TTS 2.25%
Audio Turing Test	0.515	Seed-TTS 0.417 (+24%), MiniMax 0.387 (+33%)
EmergentTTS-Eval Win Rate	81.88%	vs gpt-4o-mini-tts baseline，全场最高
Fish Instruction Benchmark TAR	93.3%	—
Fish Instruction Benchmark Quality	4.51/5.0	—

多语言（MiniMax 24 语种测试集）

维度	S2 表现
Best WER	11/24 语言（最多）
Best Speaker Similarity	17/24 语言（最多）

在中英日韩法德西葡俄等主要语言中均为第一或第二。

推理性能（单卡 NVIDIA H200）

指标	数值
Real-Time Factor (RTF)	0.195（比实时快 5 倍）
首字延迟	~100ms
吞吐	3000+ acoustic tokens/s
前缀缓存命中率	86.4%（同一声音重复使用时 >90%）

竞品对比

维度	Fish Audio S2	ElevenLabs	OpenAI TTS	MiniMax Speech-02	Qwen3-TTS
开源	✅ Research License	❌	❌	❌	部分
模型参数	4B+400M	未公开	未公开	未公开	30B-A3B
中文 WER	0.54%	~2%+	未公开	0.99%	0.77%
克隆门槛	15 秒	30 秒	❌ 不支持	未公开	未公开
情感控制	自然语言内联（任意描述）	有限预设	无	有限	有限
首字延迟	~100ms	~300ms	~500ms	未公开	未公开
自部署	✅ 完整推理栈	❌	❌	❌	✅
RL 对齐	✅ GRPO	未公开	未公开	未公开	未公开

ElevenLabs 的问题

冷月的技术性批评值得注意：

> "ElevenLabs 做了一些 reward hacking 的事情。它的语音听上去起伏丰富，初听非常自然，但实际上这些起伏是装饰性的，并没有与语义和情绪精准对应。你会感觉它'像人说话'，但认真听就会发现强调和停顿是随机的，缺乏语用逻辑。"

翻译：ElevenLabs 的模型学会了"听起来像人"的韵律模式，但这些韵律不是从语义出发的，是"化妆"而非"真美"。

开源模型全家桶（HuggingFace）

Fish Audio 在 HuggingFace 上共发布了 9 个模型，覆盖从早期探索到当前旗舰的完整演进：

模型	参数量	类型	发布时间	下载量	说明
S2-Pro	5B	Text→Speech	2026.03	13.6K	⭐ 当前旗舰，Dual-AR 架构，全面领先
S1-Mini	—	Text→Speech	2026.02	7.5K	轻量版，推理更快，适合批量任务
Fish Speech 1.5	—	Text→Speech	2025.03	6.6K	上一代开源 SOTA
Fish Speech 1.4	—	Text→Speech	2024.11	676	多语言增强版
Fish Agent v0.1-3B	3B	Audio→Audio	2024.11	34	语音对话 Agent（不走文本中间态）
Fish Speech 1.2 SFT	—	Text→Speech	2024.08	31	监督微调版
Fish Speech 1.2	—	Text→Speech	2024.07	131	—
Fish Speech 1.0	—	Text→Speech	2024.05	—	初版开源
Speech-LM v1	—	Text→Speech	2024.03	—	最早的语音语言模型

> HuggingFace 主页: https://huggingface.co/fishaudio

硬件需求与自部署

模型	显存需求 (fp16)	4090 (24GB)	3090 (24GB)	3060 (12GB)	Mac M4 (16GB)
S2-Pro (5B)	~10GB	✅ 轻松	✅ 轻松	⚠️ 勉强	⚠️ 可能可以（需测试）
S1-Mini	~3-4GB（估）	✅	✅	✅	✅
Fish Agent 3B	~6GB	✅	✅	✅	✅

部署方式（以 S2-Pro 为例）：


# 方式一：pip 安装
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech && pip install -e .
huggingface-cli download fishaudio/s2-pro --local-dir checkpoints/s2-pro
python -m tools.api_server  # OpenAI 兼容 API

# 方式二：Docker
docker run -p 8080:8080 --gpus all fishaudio/fish-speech

# 方式三：SGLang（高性能推理，推荐生产环境）
# 详见 https://github.com/sgl-project/sglang-omni

⚠️ License 注意

S2-Pro 使用的是 Fish Audio Research License，不是 Apache 2.0 或 MIT。商业使用前务必查看具体条款：https://github.com/fishaudio/fish-speech/blob/main/LICENSE

产品矩阵

产品	面向	说明
Fish Audio App	C 端创作者	Web 端 TTS + 声音克隆平台，北美/日本为主
Fish Audio API	B 端开发者	OpenAI 兼容接口，voice_id 统一管理
S2 开源模型	开发者/研究者	完整权重 + fine-tuning 代码 + SGLang 推理
S2 Pro	商业用户	闭源增强版，通过 fish.audio 平台使用
未来：AI 陪伴产品	C 端	冷月的终极愿景——"永不背叛的语音陪伴"

对 Babel 播客的启发

我们的 Babel 播客目前使用 IndexTTS2（默认）和 Qwen3-TTS（备选）做中文语音合成。Fish Audio S2 值得关注但不急着替换：

维度	IndexTTS2（当前）	Fish Audio S2
部署方式	本地 GPU	本地 GPU 或 API
推理成本	零（自有 GPU）	零（自部署）或 API 付费
中文质量	好	可能更好（WER 0.54%）
情感控制	有限	强（inline tags）
多说话人	支持	原生多说话人标记
集成难度	已集成	需要新增 backend

结论：如果发现当前 TTS 质量不够好（特别是情感丰富的段落），Fish Audio S2 是最值得试的替代方案。但现阶段 IndexTTS2 已经够用，不急。

评分

维度	评分（/10）
技术创新	9.5 — Dual-AR + GRPO + 数据-奖励统一设计，架构层面领先
开源诚意	8.5 — 权重 + fine-tuning + 推理栈全开源，但 License 非 Apache 2.0
商业化	8.5 — 半年 500 万美元 ARR，增速惊人
中文能力	9.5 — 中文 WER 0.54%，24 语种中文 best，碾压
生态成熟度	7.5 — SGLang 集成好，但文档和社区还在建设中
创始人故事	10 — 被绿后做永不背叛的 AI 陪伴，这个叙事满分
综合	9.0

时间线

时间	事件
~2021	冷月开始关注语音克隆（二次元角色配音）
2022	参与开源 So-VITS-SVC、GPT-SoVITS
2023.07	从英伟达离职，创办 Hanabi AI
2023 年底	最艰难时期——融资困难、信用卡债务
2024.06	Fish Speech 1.0 开源
2024.07	Fish Speech 1.3 — 10 秒克隆
2024.09	Fish Speech 1.4 — 多语言增强
2025 年初	加入 HF0 孵化器，连续完成多轮融资
2025 年中	ARR 达到 ~500 万美元，MAU 40 万
2025.11	Fish Speech 1.5（开源 SOTA）
2026.03	Fish Audio S2 开源（当前全球 TTS 第一）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）