Fish Speech
[English](../README.md) | [简体中文](README.zh.md) | **Portuguese** | [日本語](README.ja.md) | [한국어](README.ko.md) | [العربية](README.ar.md)[!IMPORTANT] Aviso de Licença
Esta base de código é lançada sob a Licença Apache e todos os pesos dos modelos são lançados sob a Licença CC-BY-NC-SA-4.0. Consulte LICENSE para mais detalhes.[!WARNING] Isenção de Responsabilidade Legal
Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
Comece Aqui
Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.
🎉 Anúncio
Estamos animados em anunciar que mudamos nossa marca para OpenAudio — introduzindo uma nova série revolucionária de modelos avançados de Text-to-Speech que se baseia na fundação do Fish-Speech.
Temos o orgulho de lançar o OpenAudio-S1 como o primeiro modelo desta série, oferecendo melhorias significativas em qualidade, desempenho e capacidades.
O OpenAudio-S1 vem em duas versões: OpenAudio-S1 e OpenAudio-S1-mini. Ambos os modelos estão agora disponíveis no Fish Audio Playground (para OpenAudio-S1) e Hugging Face (para OpenAudio-S1-mini).
Visite o site OpenAudio para blog e relatório técnico.
Destaques ✨
Excelente qualidade TTS
Usamos as métricas de avaliação Seed TTS para avaliar o desempenho do modelo, e os resultados mostram que o OpenAudio S1 alcança 0.008 WER e 0.004 CER em texto em inglês, que é significativamente melhor que modelos anteriores. (Inglês, avaliação automática, baseada no OpenAI gpt-4o-transcribe, distância do locutor usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
| Modelo | Taxa de Erro de Palavra (WER) | Taxa de Erro de Caractere (CER) | Distância do Locutor | 
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 | 
| S1-mini | 0.011 | 0.005 | 0.380 | 
Melhor Modelo no TTS-Arena2 🏆
O OpenAudio S1 alcançou a classificação #1 no TTS-Arena2, o benchmark para avaliação de text-to-speech:
 
Controle de Fala
O OpenAudio S1 suporta uma variedade de marcadores emocionais, de tom e especiais para aprimorar a síntese de fala:
- 
Emoções básicas: 
- 
Emoções avançadas: (desdenhoso) (infeliz) (ansioso) (histérico) (indiferente) (impaciente) (culpado) (desprezível) (em pânico) (furioso) (relutante) (entusiasmado) (desaprovador) (negativo) (negando) (espantado) (sério) (sarcástico) (conciliador) (consolador) (sincero) (escarnecedor) (hesitante) (cedendo) (doloroso) (constrangido) (divertido)
- 
Marcadores de tom: 
- 
Efeitos de áudio especiais: 
Você também pode usar Ha,ha,ha para controlar, há muitos outros casos esperando para serem explorados por você mesmo.
(Suporte para inglês, chinês e japonês agora, e mais idiomas em breve!)
Dois Tipos de Modelos
| Modelo | Tamanho | Disponibilidade | Recursos | 
|---|---|---|---|
| S1 | 4B parâmetros | Disponível em fish.audio | Modelo flagship com recursos completos | 
| S1-mini | 0.5B parâmetros | Disponível no Hugging Face hf space | Versão destilada com capacidades principais | 
Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback Humano (RLHF).
Recursos
- 
TTS Zero-shot e Few-shot: Insira uma amostra vocal de 10 a 30 segundos para gerar saída TTS de alta qualidade. Para diretrizes detalhadas, veja Melhores Práticas de Clonagem de Voz. 
- 
Suporte Multilíngue e Cross-lingual: Simplesmente copie e cole texto multilíngue na caixa de entrada—não precisa se preocupar com o idioma. Atualmente suporta inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol. 
- 
Sem Dependência de Fonema: O modelo tem fortes capacidades de generalização e não depende de fonemas para TTS. Pode lidar com texto em qualquer script de idioma. 
- 
Altamente Preciso: Alcança um baixo CER (Taxa de Erro de Caractere) de cerca de 0.4% e WER (Taxa de Erro de Palavra) de cerca de 0.8% para Seed-TTS Eval. 
- 
Rápido: Com aceleração por torch compile, o fator de tempo real é aproximadamente 1:7 em uma GPU Nvidia RTX 4090. 
- 
Inferência via WebUI: Apresenta uma interface de usuário baseada em Gradio, fácil de usar e compatível com Chrome, Firefox, Edge e outros navegadores. 
- 
Amigável para Implantação: Configure facilmente um servidor de inferência com suporte nativo para Linux e Windows (suporte para macOS em breve), minimizando a perda de desempenho. 
Mídia e Demos
Créditos
Relatório Técnico (V1.4)
@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}
