Skip to content

Fish Speech

[English](../README.md) | **简体中文** | [Portuguese](README.pt-BR.md) | [日本語](README.ja.md) | [한국어](README.ko.md)
Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift




[!IMPORTANT] 许可证声明
此代码库在 Apache License 下发布,所有模型权重在 CC-BY-NC-SA-4.0 License 下发布。更多详情请参考 LICENSE

[!WARNING] 法律免责声明
我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。


🎉 公告

我们很高兴地宣布,我们已将品牌重塑为 OpenAudio —— 推出基于 Fish-Speech 基础构建的革命性新一代高级文本转语音模型系列。

我们自豪地发布 OpenAudio-S1 作为该系列的第一个模型,在质量、性能和功能方面都有显著改进。

OpenAudio-S1 提供两个版本:OpenAudio-S1OpenAudio-S1-mini。两个模型现在都可以在 Fish Audio PlaygroundOpenAudio-S1)和 Hugging FaceOpenAudio-S1-mini)上使用。

请访问 OpenAudio 网站 获取博客和技术报告。

亮点 ✨

出色的 TTS 质量

我们使用 Seed TTS 评估指标来评估模型性能,结果显示 OpenAudio S1 在英语文本上达到了 0.008 WER0.004 CER,这比以前的模型显著更好。(英语,自动评估,基于 OpenAI gpt-4o-transcribe,使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM 进行说话人距离计算)

模型 词错误率 (WER) 字符错误率 (CER) 说话人距离
S1 0.008 0.004 0.332
S1-mini 0.011 0.005 0.380

TTS-Arena2 最佳模型 🏆

OpenAudio S1 在 TTS-Arena2 上取得了 第一名,这是文本转语音评估的基准:

TTS-Arena2 排名

语音控制

OpenAudio S1 支持多种情感、语调和特殊标记 来增强语音合成:

  • 基础情感

    (生气) (伤心) (兴奋) (惊讶) (满意) (高兴) 
    (害怕) (担心) (沮丧) (紧张) (挫败) (郁闷)
    (同情) (尴尬) (厌恶) (感动) (自豪) (放松)
    (感激) (自信) (感兴趣) (好奇) (困惑) (快乐)
    

  • 高级情感

    (鄙视) (不开心) (焦虑) (歇斯底里) (冷漠) 
    (不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿)
    (热衷) (不赞成) (消极) (否认) (震惊) (严肃)
    (讽刺) (安抚) (安慰) (真诚) (冷笑)
    (犹豫) (屈服) (痛苦) (尴尬) (觉得有趣)
    

  • 语调标记

    (急促的语调) (喊叫) (尖叫) (耳语) (柔和的语调)
    

  • 特殊音频效果

    (笑声) (轻笑) (抽泣) (大声哭泣) (叹息) (喘息)
    (呻吟) (人群笑声) (背景笑声) (观众笑声)
    

您也可以使用 哈,哈,哈 来控制,还有许多其他情况等待您自己探索。

(目前支持英语、中文和日语,更多语言即将推出!)

两种类型的模型

模型 大小 可用性 特性
S1 4B 参数 fish.audio 上可用 功能齐全的旗舰模型
S1-mini 0.5B 参数 在 Hugging Face hf space 上可用 具有核心功能的精简版本

S1 和 S1-mini 都集成了在线人类反馈强化学习(RLHF)。

## 功能

  1. 零样本和少样本 TTS: 输入 10 到 30 秒的语音样本以生成高质量的 TTS 输出。详细指南请参见 语音克隆最佳实践

  2. 多语言和跨语言支持: 只需将多语言文本复制并粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

  3. 无音素依赖: 模型具有强大的泛化能力,不依赖音素进行 TTS。它可以处理任何语言脚本的文本。

  4. 高准确性: 在 Seed-TTS Eval 上实现约 0.4% 的低 CER(字符错误率)和约 0.8% 的 WER(词错误率)。

  5. 快速: 通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本电脑上实时因子约为 1:5,在 Nvidia RTX 4090 上为 1:15。

  6. WebUI 推理: 具有易于使用的基于 Gradio 的 Web UI,兼容 Chrome、Firefox、Edge 和其他浏览器。

  7. GUI 推理: 提供与 API 服务器无缝配合的 PyQt6 图形界面。支持 Linux、Windows 和 macOS。查看 GUI

  8. 部署友好: 通过对 Linux、Windows(macOS 即将推出)的原生支持,轻松设置推理服务器,最小化速度损失。

媒体和演示

### **社交媒体** X 上的最新演示 ### **交互式演示** 试用 OpenAudio S1 试用 S1 Mini ### **视频展示** OpenAudio S1 Video ### **音频样本**
展示我们跨不同语言和情感的多语言 TTS 功能的高质量音频样本即将推出。

文档

致谢

技术报告 (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}