Instalação
Requisitos
- Memória da GPU: 12GB (Inferência)
- Sistema: Linux, WSL
Configuração do Sistema
O OpenAudio suporta múltiplos métodos de instalação. Escolha o que melhor se adapta ao seu ambiente de desenvolvimento.
Pré-requisitos: Instale as dependências de sistema para processamento de áudio:
Conda
conda create -n fish-speech python=3.12
conda activate fish-speech
# Instalação com GPU (escolha a sua versão do CUDA: cu126, cu128, cu129)
pip install -e .[cu129]
# Instalação apenas para CPU
pip install -e .[cpu]
# Instalação padrão (usa o índice padrão do PyTorch)
pip install -e .
UV
O UV oferece uma resolução e instalação de dependências mais rápidas:
# Instalação com GPU (escolha a sua versão do CUDA: cu126, cu128, cu129)
uv sync --python 3.12 --extra cu129
# Instalação apenas para CPU
uv sync --python 3.12 --extra cpu
Suporte para Intel Arc XPU
Para utilizadores de GPUs Intel Arc, instale o suporte XPU da seguinte forma:
conda create -n fish-speech python=3.12
conda activate fish-speech
# Instalar a biblioteca padrão C++ necessária
conda install libstdcxx -c conda-forge
# Instalar o PyTorch com suporte para Intel XPU
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
# Instalar o Fish Speech
pip install -e .
Warning
A opção compile
não é suportada no Windows e macOS. Se desejar executar com compilação, terá de instalar o Triton manualmente.
Configuração do Docker
O modelo da série OpenAudio S1 oferece múltiplas opções de implementação com Docker para satisfazer diferentes necessidades. Pode usar imagens pré-construídas do Docker Hub, construir localmente com o Docker Compose, ou construir manualmente imagens personalizadas.
Fornecemos imagens Docker para a WebUI e o servidor API, tanto para GPU (CUDA 12.6 por defeito) como para CPU. Pode usar as imagens pré-construídas do Docker Hub, construir localmente com o Docker Compose, ou construir manualmente imagens personalizadas. Se quiser construir localmente, siga as instruções abaixo. Se apenas quiser usar as imagens pré-construídas, siga diretamente o guia de inferência.
Pré-requisitos
- Docker e Docker Compose instalados
- NVIDIA Docker runtime instalado (para suporte de GPU)
- Pelo menos 12GB de memória de GPU para inferência com CUDA
Usar o Docker Compose
Para desenvolvimento ou personalização, pode usar o Docker Compose para construir e executar localmente:
# Primeiro, clone o repositório
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
# Iniciar a WebUI com CUDA
docker compose --profile webui up
# Iniciar a WebUI com otimização de compilação
COMPILE=1 docker compose --profile webui up
# Iniciar o servidor API
docker compose --profile server up
# Iniciar o servidor API com otimização de compilação
COMPILE=1 docker compose --profile server up
# Implementação apenas com CPU
BACKEND=cpu docker compose --profile webui up
Variáveis de Ambiente para o Docker Compose
Pode personalizar a implementação usando variáveis de ambiente:
# Exemplo de ficheiro .env
BACKEND=cuda # ou cpu
COMPILE=1 # Ativar otimização de compilação
GRADIO_PORT=7860 # Porta da WebUI
API_PORT=8080 # Porta do servidor API
UV_VERSION=0.8.15 # Versão do gestor de pacotes UV
O comando irá construir a imagem e executar o contentor. Pode aceder à WebUI em http://localhost:7860
e ao servidor API em http://localhost:8080
.
Construção Manual com Docker
Para utilizadores avançados que desejam personalizar o processo de construção:
# Construir imagem da WebUI com suporte CUDA
docker build \
--platform linux/amd64 \
-f docker/Dockerfile \
--build-arg BACKEND=cuda \
--build-arg CUDA_VER=12.6.0 \
--build-arg UV_EXTRA=cu126 \
--target webui \
-t fish-speech-webui:cuda .
# Construir imagem do servidor API com suporte CUDA
docker build \
--platform linux/amd64 \
-f docker/Dockerfile \
--build-arg BACKEND=cuda \
--build-arg CUDA_VER=12.6.0 \
--build-arg UV_EXTRA=cu126 \
--target server \
-t fish-speech-server:cuda .
# Construir imagem apenas para CPU (suporta multiplataforma)
docker build \
--platform linux/amd64,linux/arm64 \
-f docker/Dockerfile \
--build-arg BACKEND=cpu \
--target webui \
-t fish-speech-webui:cpu .
# Construir imagem de desenvolvimento
docker build \
--platform linux/amd64 \
-f docker/Dockerfile \
--build-arg BACKEND=cuda \
--target dev \
-t fish-speech-dev:cuda .
Argumentos de Construção
BACKEND
:cuda
oucpu
(padrão:cuda
)CUDA_VER
: Versão do CUDA (padrão:12.6.0
)UV_EXTRA
: Pacote extra do UV para CUDA (padrão:cu126
)UBUNTU_VER
: Versão do Ubuntu (padrão:24.04
)PY_VER
: Versão do Python (padrão:3.12
)
Montagem de Volumes
Ambos os métodos requerem a montagem dos seguintes diretórios:
./checkpoints:/app/checkpoints
- Diretório dos pesos do modelo./references:/app/references
- Diretório dos ficheiros de áudio de referência
Variáveis de Ambiente
COMPILE=1
- Ativa otorch.compile
para uma inferência mais rápida (cerca de 10x)GRADIO_SERVER_NAME=0.0.0.0
- Anfitrião do servidor WebUIGRADIO_SERVER_PORT=7860
- Porta do servidor WebUIAPI_SERVER_NAME=0.0.0.0
- Anfitrião do servidor APIAPI_SERVER_PORT=8080
- Porta do servidor API
Note
Os contentores Docker esperam que os pesos do modelo sejam montados em /app/checkpoints
. Certifique-se de que descarregou os pesos do modelo necessários antes de iniciar os contentores.
Warning
O suporte para GPU requer o NVIDIA Docker runtime. Para implementações apenas com CPU, remova a flag --gpus all
e use as imagens de CPU.