Kokoro-82M — 82M 參數的開源 TTS 王者

一句话版本

Kokoro 是一個只有 82M 參數的文字轉語音(TTS)模型,卻在 TTS Spaces Arena 評比中打敗了 14 倍大的模型——開源、安裝只需 pip install kokoro、一行 Python 就能把文字變成自然語音,API 成本不到每百萬字符 1 美元。

核心內容

這是什麼?

Kokoro-82M 是由 hexgrad 開源的輕量級 TTS 模型,基於 StyleTTS 2 架構,僅 82M 參數,Apache 2.0 授權。與多數需要數百 GB 顯存的大型 TTS 模型不同,Kokoro 可以在任何裝置上運行——從 Colab 到 MacBook 到生產伺服器。

核心數據

指標數值
參數量82M
訓練成本約 **$1,000 USD**(1000 小時 A100 80GB)
訓練數據幾百小時(開源音頻 + 合成數據)
授權Apache 2.0
語言**8 種**(美式/英式英語、西語、法語、印地語、義大利語、日語、葡語、中文)
聲音數54 種
HF 月下載**970 萬次**
GitHub Stars7K

性能表現——以小博大

Kokoro 在 TTS Spaces Arena 獲得第一名的成績,打敗了參數量遠超它的模型:

模型參數量訓練數據
**Kokoro-82M** 🥇**82M**< 幾百小時
XTTS v2467M (5.7x)10,000+ 小時
Fish Speech~500M (6x)1,000,000+ 小時
MetaVoice1.2B (14.6x)100,000+ 小時

這意味著 Kokoro 在效率上遠超同儕:用 1/14 的參數、1/1000 的訓練數據,達到了更好的效果。

安裝與使用


pip install kokoro soundfile

from kokoro import KPipeline
import soundfile as sf

pipeline = KPipeline(lang_code='a')  # a = 美式英語
text = "Kokoro is an open-weight TTS model with 82 million parameters."
generator = pipeline(text, voice='af_heart')

for i, (gs, ps, audio) in enumerate(generator):
    sf.write(f'{i}.wav', audio, 24000)  # 輸出 24kHz WAV

支援的語言代碼:

技術架構

Kokoro 基於兩個學術成果:

1. StyleTTS 2 (arXiv:2306.07691,Li et al.):decoder-only 的風格 TTS,無需 diffusion 或額外 encoder

2. ISTFTNet (arXiv:2203.02395):逆短時傅立葉轉換神經網路作為 vocoder

底層使用 misaki(hexgrad 自己的 G2P 庫)將文字轉為 IPA 音素。

Git 倉庫結構

奇怪的是這個倉庫混合了兩種語言——JavaScript 佔 51.5%、Python 佔 47.0%。這可能是因為它包含了一個 JS 版本的推理實現(kokoro.js/ 目錄),以及 web demo 的前端代碼。

API 成本

服務商:DeepInfra、fal、Replicate

團隊背景與發展歷程

這是誰做的?

Kokoro 不是公司產品,沒有組織支持,沒有 VC 投資。它是一個完全由個人發起的社區驅動開源專案,背後的參與者:

角色身份貢獻
**hexgrad** 👤GitHub/HF 匿名維護者專案發起人、推理庫(kokoro pip 套件)和 misaki G2P 庫作者、HF Spaces demo 維護者。GitHub 上只有 kokoro 和 misaki 兩個 repo。HF 個人介紹中有一個亂碼字串 "Zvezdan"(斯拉夫語名字意為「星星」),此外沒有任何真實身分資訊
**@rzvzn** 🎯Discord 匿名用戶**模型訓練者**——整個 Kokoro 實際上是這個人在 Discord 上訓練出來的。沒有名字、沒有 GitHub,唯一存在痕跡就是 HF 模型卡上那行 "Trained by: @rzvzn on Discord"
**yl4579 / Aaron (Yinghao) Li** 🏛️哥倫比亞大學研究員StyleTTS 2 的架構設計者(Kokoro 的底層技術)。但**他沒有參與 Kokoro**——他的開源論文為 Kokoro 提供了基礎架構
**Pendrokar / Yanis Lukes**Hugging Face 社群成員創建 TTS Spaces Arena 排行榜,將 Kokoro 加入評比,幫助它獲得 #1 排名
**LongMaoData(龍貓數據)** 🇨🇳中國專業數據公司為 v1.1-zh 免費捐贈了 100 個中文語者數據集
**SuperuserLabs / mingcheng / PATYai**GitHub Sponsors三組已知的資金贊助者

發展歷程(6 個月從零到 970 萬月下載)

2024 年

日期事件
**11/22**v0.19 訓練開始。訓練數據 <100 小時。Koniwa CC BY 音頻 (<1h)、SIWIS CC BY 音頻 (<11h) 加入訓練集
**12/25 🎄****v0.19 首次公開釋出!** 聖誕節當天,權重在 Apache 2.0 下以 full fp32 發布。1 種語言(英語)、10 種聲音。訓練成本:**$400**(500 A100 80GB GPU 小時 @ $0.80/h)

2025 年

日期事件
**~1/2**10 個獨特 voicepack 釋出,.onnx 版本可用
**~1/8 🔥**Reddit r/LocalLLaMA 貼文引爆社群:"Second Take: Kokoro-82M is an Apache TTS model"(216 讚、53 則討論)。模型訓練者親自現身回答問題
**~1/11**r/Oobabooga 社群開始討論將 Kokoro 整合進 text-generation-webui
**1/27 🚀****v1.0 釋出!** 重大升級:8 種語言、54 種聲音、幾百小時訓練數據。追加訓練成本 **$600**(500 A100 GPU 小時 @ $1.20/h)總訓練成本:**~$1,000**
**2/5**hexgrad 發布 HF 部落格文「G2P Shrinks Speech Models」,解釋 G2P(字素轉音素)預處理讓模型壓縮成為可能
**2/26 🇨🇳****v1.1-zh 釋出!** 中文增強版。龍貓數據捐贈 100 個中文語者。103 種聲音、2 種語言(中英)。訓練成本 **$110**(120 A100 GPU 小時 @ $0.90/h)。**總訓練成本全版本合計:$1,110**
**~2/26**EVAL 截圖:TTS Spaces Arena #1、TTS Arena #1、Artificial Analysis 頂尖排名
**4 月 💰**商業 API 定價公布:每百萬字符 < $1,每小時音頻 < $0.06。DeepInfra、fal、Replicate 開始託管
**至今 🌍**月下載 970 萬次、GitHub 7K ⭐、25+ 社群 finetune、38 adapter、35 quantization。社群移植:Rust(Kokoros)、JavaScript(kokoro.js)。詐騙網站出現(kokorottsai.com、kokorotts.net)

訓練成本全貌

版本GPU 時數時薪成本發布日
v0.19500 A100$0.80/h$4002024-12-25
v1.0500 A100$1.20/h$6002025-01-27
v1.1-zh120 A100$0.90/h$1102025-02-26
**總計****1120**~$1/h**$1,110**

為何不叫「團隊」?

Kokoro 的開發模式非常特殊:沒有組織、沒有公司、沒有正式團隊。它是一個完全由 Discord 社群驅動、Open Claw 風格(小規模、高效率、去中心化)的專案。

這背後只有一句話:一個 Discord 上的人訓練了一個模型,另一個人幫他寫了代碼,社群幫忙測試、評比、讚助、捐贈數據——然後爆紅了。

分析

技術意義

1. 82M 參數 vs SOTA 品質是最大亮點。Kokoro 證明了 TTS 領域不一定需要超大模型——精心設計的架構 + 高品質訓練數據可以「以小博大」。

2. 極低訓練成本(~$1,000) 讓它幾乎任何人都可以復現或微調。HF 上有 25 個 finetune、38 個 adapter、35 個 quantization 版本。

3. Apache 2.0 授權徹底消除了商用顧慮。

4. monthly 970 萬下載說明它的社區採用率極高,已經在大量專案中實際部署。

與我們項目的關聯

需要注意的點

評分

維度評分說明
技術深度⭐⭐⭐⭐StyleTTS 2 + ISTFTNet,架構精簡但有效
實用性⭐⭐⭐⭐⭐pip install 一行就可使用,API 成本極低
創新性⭐⭐⭐沒有引入全新架構,但以小博大的結果令人驚艷
文件品質⭐⭐⭐⭐README 清晰,多語言支援說明完整
與我們項目相關性⭐⭐⭐⭐可作為 OpenClaw 的 TTS 後端,開源免費

綜合評分:8.5/10

相關連結