Instalação
Requisitos
- Memória da GPU: 12GB (Inferência)
- Sistema: Linux, WSL
Configuração do Sistema
O OpenAudio suporta múltiplos métodos de instalação. Escolha o que melhor se adapta ao seu ambiente de desenvolvimento.
Pré-requisitos: Instale as dependências de sistema para processamento de áudio:
Conda
conda create -n fish-speech python=3.12
conda activate fish-speech
# Instalação com GPU (escolha a sua versão do CUDA: cu126, cu128, cu129)
pip install -e .[cu129]
# Instalação apenas para CPU
pip install -e .[cpu]
# Instalação padrão (usa o índice padrão do PyTorch)
pip install -e .
UV
O UV oferece uma resolução e instalação de dependências mais rápidas:
# Instalação com GPU (escolha a sua versão do CUDA: cu126, cu128, cu129)
uv sync --python 3.12 --extra cu129
# Instalação apenas para CPU
uv sync --python 3.12 --extra cpu
Suporte para Intel Arc XPU
Para utilizadores de GPUs Intel Arc, instale o suporte XPU da seguinte forma:
conda create -n fish-speech python=3.12
conda activate fish-speech
# Instalar a biblioteca padrão C++ necessária
conda install libstdcxx -c conda-forge
# Instalar o PyTorch com suporte para Intel XPU
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
# Instalar o Fish Speech
pip install -e .
Warning
A opção compile não é suportada no Windows e macOS. Se desejar executar com compilação, terá de instalar o Triton manualmente.
Configuração do Docker
O modelo da série OpenAudio S1 oferece múltiplas opções de implementação com Docker para satisfazer diferentes necessidades. Pode usar imagens pré-construídas do Docker Hub, construir localmente com o Docker Compose, ou construir manualmente imagens personalizadas.
Fornecemos imagens Docker para a WebUI e o servidor API, tanto para GPU (CUDA 12.6 por defeito) como para CPU. Pode usar as imagens pré-construídas do Docker Hub, construir localmente com o Docker Compose, ou construir manualmente imagens personalizadas. Se quiser construir localmente, siga as instruções abaixo. Se apenas quiser usar as imagens pré-construídas, siga diretamente o guia de inferência.
Pré-requisitos
- Docker e Docker Compose instalados
- NVIDIA Docker runtime instalado (para suporte de GPU)
- Pelo menos 12GB de memória de GPU para inferência com CUDA
Usar o Docker Compose
Para desenvolvimento ou personalização, pode usar o Docker Compose para construir e executar localmente:
# Primeiro, clone o repositório
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
# Iniciar a WebUI com CUDA
docker compose --profile webui up
# Iniciar a WebUI com otimização de compilação
COMPILE=1 docker compose --profile webui up
# Iniciar o servidor API
docker compose --profile server up
# Iniciar o servidor API com otimização de compilação
COMPILE=1 docker compose --profile server up
# Implementação apenas com CPU
BACKEND=cpu docker compose --profile webui up
Variáveis de Ambiente para o Docker Compose
Pode personalizar a implementação usando variáveis de ambiente:
# Exemplo de ficheiro .env
BACKEND=cuda # ou cpu
COMPILE=1 # Ativar otimização de compilação
GRADIO_PORT=7860 # Porta da WebUI
API_PORT=8080 # Porta do servidor API
UV_VERSION=0.8.15 # Versão do gestor de pacotes UV
O comando irá construir a imagem e executar o contentor. Pode aceder à WebUI em http://localhost:7860 e ao servidor API em http://localhost:8080.
Construção Manual com Docker
Para utilizadores avançados que desejam personalizar o processo de construção:
# Construir imagem da WebUI com suporte CUDA
docker build \
--platform linux/amd64 \
-f docker/Dockerfile \
--build-arg BACKEND=cuda \
--build-arg CUDA_VER=12.6.0 \
--build-arg UV_EXTRA=cu126 \
--target webui \
-t fish-speech-webui:cuda .
# Construir imagem do servidor API com suporte CUDA
docker build \
--platform linux/amd64 \
-f docker/Dockerfile \
--build-arg BACKEND=cuda \
--build-arg CUDA_VER=12.6.0 \
--build-arg UV_EXTRA=cu126 \
--target server \
-t fish-speech-server:cuda .
# Construir imagem apenas para CPU (suporta multiplataforma)
docker build \
--platform linux/amd64,linux/arm64 \
-f docker/Dockerfile \
--build-arg BACKEND=cpu \
--target webui \
-t fish-speech-webui:cpu .
# Construir imagem de desenvolvimento
docker build \
--platform linux/amd64 \
-f docker/Dockerfile \
--build-arg BACKEND=cuda \
--target dev \
-t fish-speech-dev:cuda .
Argumentos de Construção
BACKEND:cudaoucpu(padrão:cuda)CUDA_VER: Versão do CUDA (padrão:12.6.0)UV_EXTRA: Pacote extra do UV para CUDA (padrão:cu126)UBUNTU_VER: Versão do Ubuntu (padrão:24.04)PY_VER: Versão do Python (padrão:3.12)
Montagem de Volumes
Ambos os métodos requerem a montagem dos seguintes diretórios:
./checkpoints:/app/checkpoints- Diretório dos pesos do modelo./references:/app/references- Diretório dos ficheiros de áudio de referência
Variáveis de Ambiente
COMPILE=1- Ativa otorch.compilepara uma inferência mais rápida (cerca de 10x)GRADIO_SERVER_NAME=0.0.0.0- Anfitrião do servidor WebUIGRADIO_SERVER_PORT=7860- Porta do servidor WebUIAPI_SERVER_NAME=0.0.0.0- Anfitrião do servidor APIAPI_SERVER_PORT=8080- Porta do servidor API
Note
Os contentores Docker esperam que os pesos do modelo sejam montados em /app/checkpoints. Certifique-se de que descarregou os pesos do modelo necessários antes de iniciar os contentores.
Warning
O suporte para GPU requer o NVIDIA Docker runtime. Para implementações apenas com CPU, remova a flag --gpus all e use as imagens de CPU.