OpenAudio (原 Fish-Speech)

先进的文字转语音模型系列

· 立即试用： Fish Audio Playground | 了解更多： OpenAudio 网站

许可声明

本代码库在 Apache 许可证下发布，所有模型权重在 CC-BY-NC-SA-4.0 许可证下发布。更多详情请参阅代码许可证和模型许可证。

法律免责声明

我们不对代码库的任何非法使用承担责任。请参考您所在地区有关 DMCA 和其他相关法律的规定。

介绍

我们很高兴地宣布，我们已经更名为 OpenAudio - 推出全新的先进文字转语音模型系列，在 Fish-Speech 的基础上进行了重大改进并增加了新功能。

Openaudio-S1-mini: 博客; 视频; Hugging Face;

Fish-Speech v1.5: 视频; Hugging Face;

亮点

优秀的 TTS 质量

我们使用 Seed TTS 评估指标来评估模型性能，结果显示 OpenAudio S1 在英文文本上达到了 0.008 WER 和 0.004 CER，明显优于以前的模型。（英语，自动评估，基于 OpenAI gpt-4o-转录，说话人距离使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM）

模型	词错误率 (WER)	字符错误率 (CER)	说话人距离
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

TTS-Arena2 最佳模型

OpenAudio S1 在 TTS-Arena2 上获得了 #1 排名，这是文字转语音评估的基准：

语音控制

OpenAudio S1 支持多种情感、语调和特殊标记来增强语音合成效果：

基础情感：

(生气) (伤心) (兴奋) (惊讶) (满意) (高兴) 
(害怕) (担心) (沮丧) (紧张) (失望) (沮丧)
(共情) (尴尬) (厌恶) (感动) (自豪) (放松)
(感激) (自信) (感兴趣) (好奇) (困惑) (快乐)

高级情感：

(鄙视) (不高兴) (焦虑) (歇斯底里) (漠不关心) 
(不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿)
(渴望) (不赞成) (否定) (否认) (惊讶) (严肃)
(讽刺) (和解) (安慰) (真诚) (冷笑)
(犹豫) (让步) (痛苦) (尴尬) (开心)

（现在支持英语、中文和日语，更多语言即将推出！）

语调标记：

(匆忙的语调) (大喊) (尖叫) (耳语) (轻声)

特殊音效：

(笑) (轻笑) (抽泣) (大哭) (叹气) (喘气)
(呻吟) (群体笑声) (背景笑声) (观众笑声)

您还可以使用 Ha,ha,ha 来控制，还有许多其他用法等待您自己探索。

两种模型类型

我们提供两种模型变体以满足不同需求：

OpenAudio S1 (40亿参数)：我们功能齐全的旗舰模型，可在 fish.audio 上使用，提供最高质量的语音合成和所有高级功能。
OpenAudio S1-mini (5亿参数)：具有核心功能的蒸馏版本，可在 Hugging Face Space 上使用，针对更快推理进行优化，同时保持出色的质量。

S1 和 S1-mini 都集成了在线人类反馈强化学习 (RLHF)。