推論
Fish Audio S2 モデルは大きなビデオメモリを必要とします。推論には少なくとも 24GB の GPU を使用することをお勧めします。
重みのダウンロード
まず、モデルの重みをダウンロードする必要があります:
コマンドライン推論
Note
モデルに音声をランダムに選択させる場合は、このステップをスキップできます。
1. リファレンスオーディオから VQ トークンを取得する
python fish_speech/models/dac/inference.py \
-i "test.wav" \
--checkpoint-path "checkpoints/s2-pro/codec.pth"
fake.npy と fake.wav が生成されるはずです。
2. テキストから Semantic トークンを生成する:
python fish_speech/models/text2semantic/inference.py \
--text "変換したいテキスト" \
--prompt-text "リファレンステキスト" \
--prompt-tokens "fake.npy" \
# --compile
このコマンドは、作業ディレクトリに codes_N ファイルを作成します。ここで N は 0 から始まる整数です。
Note
より高速な推論のために CUDA カーネルを融合する --compile を使用したい場合がありますが、私たちの sglang 推論加速最適化を使用することをお勧めします。
同様に、加速を使用する予定がない場合は、--compile パラメータをコメントアウトしてください。
Info
bf16 をサポートしていない GPU の場合、--half パラメータを使用する必要があるかもしれません。
3. セマンティックトークンから音声を生成する:
その後、fake.wav ファイルが取得できます。
WebUI 推論
1. Gradio WebUI
互換性を維持するため、以前の Gradio WebUI も引き続き利用可能です。
2. Awesome WebUI
Awesome WebUI は TypeScript で開発された、より豊富な機能と優れたユーザー体験を提供する最新の Web インターフェースです。
WebUI のビルド:
ローカルまたはサーバーに Node.js と npm がインストールされている必要があります。
awesome_webuiディレクトリに移動します:- 依存関係をインストールします:
- WebUI をビルドします:
バックエンドサーバーの起動:
WebUI のビルドが完了したら、プロジェクトのルートに戻り、API サーバーを起動します:
アクセス:
サーバーが起動したら、ブラウザから以下のアドレスにアクセスして体験できます:
http://localhost:8888/ui