Fish Speech
[English](../README.md) | [简体中文](README.zh.md) | **Portuguese** | [日本語](README.ja.md) | [한국어](README.ko.md)[!IMPORTANT] Aviso de Licença
Esta base de código é lançada sob a Licença Apache e todos os pesos dos modelos são lançados sob a Licença CC-BY-NC-SA-4.0. Consulte LICENSE para mais detalhes.[!WARNING] Isenção de Responsabilidade Legal
Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
🎉 Anúncio
Estamos animados em anunciar que mudamos nossa marca para OpenAudio — introduzindo uma nova série revolucionária de modelos avançados de Text-to-Speech que se baseia na fundação do Fish-Speech.
Temos o orgulho de lançar o OpenAudio-S1 como o primeiro modelo desta série, oferecendo melhorias significativas em qualidade, desempenho e capacidades.
O OpenAudio-S1 vem em duas versões: OpenAudio-S1 e OpenAudio-S1-mini. Ambos os modelos estão agora disponíveis no Fish Audio Playground (para OpenAudio-S1) e Hugging Face (para OpenAudio-S1-mini).
Visite o site OpenAudio para blog e relatório técnico.
Destaques ✨
Excelente qualidade TTS
Usamos as métricas de avaliação Seed TTS para avaliar o desempenho do modelo, e os resultados mostram que o OpenAudio S1 alcança 0.008 WER e 0.004 CER em texto em inglês, que é significativamente melhor que modelos anteriores. (Inglês, avaliação automática, baseada no OpenAI gpt-4o-transcribe, distância do locutor usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
Modelo | Taxa de Erro de Palavra (WER) | Taxa de Erro de Caractere (CER) | Distância do Locutor |
---|---|---|---|
S1 | 0.008 | 0.004 | 0.332 |
S1-mini | 0.011 | 0.005 | 0.380 |
Melhor Modelo no TTS-Arena2 🏆
O OpenAudio S1 alcançou a classificação #1 no TTS-Arena2, o benchmark para avaliação de text-to-speech:

Controle de Fala
O OpenAudio S1 suporta uma variedade de marcadores emocionais, de tom e especiais para aprimorar a síntese de fala:
-
Emoções básicas:
-
Emoções avançadas:
(desdenhoso) (infeliz) (ansioso) (histérico) (indiferente) (impaciente) (culpado) (desprezível) (em pânico) (furioso) (relutante) (entusiasmado) (desaprovador) (negativo) (negando) (espantado) (sério) (sarcástico) (conciliador) (consolador) (sincero) (escarnecedor) (hesitante) (cedendo) (doloroso) (constrangido) (divertido)
-
Marcadores de tom:
-
Efeitos de áudio especiais:
Você também pode usar Ha,ha,ha para controlar, há muitos outros casos esperando para serem explorados por você mesmo.
(Suporte para inglês, chinês e japonês agora, e mais idiomas em breve!)
Dois Tipos de Modelos
Modelo | Tamanho | Disponibilidade | Recursos |
---|---|---|---|
S1 | 4B parâmetros | Disponível em fish.audio | Modelo flagship com recursos completos |
S1-mini | 0.5B parâmetros | Disponível no Hugging Face hf space | Versão destilada com capacidades principais |
Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback Humano (RLHF).
## Recursos
-
TTS Zero-shot e Few-shot: Insira uma amostra vocal de 10 a 30 segundos para gerar saída TTS de alta qualidade. Para diretrizes detalhadas, veja Melhores Práticas de Clonagem de Voz.
-
Suporte Multilíngue e Cross-lingual: Simplesmente copie e cole texto multilíngue na caixa de entrada—não precisa se preocupar com o idioma. Atualmente suporta inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.
-
Sem Dependência de Fonema: O modelo tem fortes capacidades de generalização e não depende de fonemas para TTS. Pode lidar com texto em qualquer script de idioma.
-
Altamente Preciso: Alcança um baixo CER (Taxa de Erro de Caractere) de cerca de 0.4% e WER (Taxa de Erro de Palavra) de cerca de 0.8% para Seed-TTS Eval.
-
Rápido: Com aceleração fish-tech, o fator de tempo real é aproximadamente 1:5 em um laptop Nvidia RTX 4060 e 1:15 em um Nvidia RTX 4090.
-
Inferência WebUI: Apresenta uma UI web baseada em Gradio fácil de usar, compatível com Chrome, Firefox, Edge e outros navegadores.
-
Inferência GUI: Oferece uma interface gráfica PyQt6 que funciona perfeitamente com o servidor de API. Suporta Linux, Windows e macOS. Ver GUI.
-
Amigável para Deploy: Configure facilmente um servidor de inferência com suporte nativo para Linux, Windows (MacOS em breve), minimizando perda de velocidade.
Mídia e Demos

Documentos
Créditos
Relatório Técnico (V1.4)
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}