コンテンツにスキップ

イントロダクション

Warning

私たちは、コードベースの違法な使用について一切の責任を負いません。お住まいの地域の DMCA(デジタルミレニアム著作権法)およびその他の関連法については、現地の法律を参照してください。

このコードベースは BSD-3-Clause ライセンスの下でリリースされており、すべてのモデルは CC-BY-NC-SA-4.0 ライセンスの下でリリースされています。

要件

  • GPU メモリ: 4GB(推論用)、8GB(微調整用)
  • システム: Linux、Windows

Windows セットアップ

Windows のプロユーザーは、コードベースを実行するために WSL2 または Docker を検討することができます。

非プロの Windows ユーザーは、Linux 環境なしでコードベースを実行するために以下の方法を検討することができます(モデルコンパイル機能付き、つまり torch.compile):

  1. プロジェクトパッケージを解凍します。
  2. install_env.batをクリックして環境をインストールします。
    • install_env.batUSE_MIRROR項目を編集して、ミラーサイトを使用するかどうかを決定できます。
    • USE_MIRROR=falseは、最新の安定版torchをオリジナルサイトからダウンロードします。USE_MIRROR=trueは、最新のtorchをミラーサイトからダウンロードします。デフォルトはtrueです。
    • install_env.batINSTALL_TYPE項目を編集して、コンパイル環境のダウンロードを有効にするかどうかを決定できます。
    • INSTALL_TYPE=previewは、コンパイル環境付きのプレビュー版をダウンロードします。INSTALL_TYPE=stableは、コンパイル環境なしの安定版をダウンロードします。
  3. ステップ2でUSE_MIRROR=previewの場合、このステップを実行します(オプション、コンパイルモデル環境を有効にするため):
    1. 以下のリンクを使用してLLVMコンパイラをダウンロードします:
    2. Microsoft Visual C++ 再頒布可能パッケージをダウンロードしてインストールし、潜在的な.dllの欠落問題を解決します。
    3. Visual Studio Community Editionをダウンロードしてインストールし、MSVC++ビルドツールを取得し、LLVMのヘッダーファイル依存関係を解決します。
      • Visual Studio ダウンロード
      • Visual Studio Installerをインストールした後、Visual Studio Community 2022をダウンロードします。
      • 以下の図のようにModifyボタンをクリックし、Desktop development with C++オプションを見つけてチェックしてダウンロードします。
    4. インストール CUDA Toolkit 12
  4. start.batをダブルクリックして、Fish-Speechトレーニング推論設定WebUIページに入ります。
    • (オプション)直接推論ページに行きたい場合は、プロジェクトルートディレクトリのAPI_FLAGS.txtを編集し、最初の3行を次のように変更します:
      --infer
      # --api
      # --listen ...
      ...
    • (オプション)APIサーバーを起動したい場合は、プロジェクトルートディレクトリのAPI_FLAGS.txtを編集し、最初の3行を次のように変更します:
      # --infer
      --api
      --listen ...
      ...
  5. (オプション)run_cmd.batをダブルクリックして、このプロジェクトのconda/pythonコマンドライン環境に入ります。

Linux セットアップ

# python 3.10仮想環境を作成します。virtualenvも使用できます。
conda create -n fish-speech python=3.10
conda activate fish-speech

# pytorchをインストールします。
pip3 install torch torchvision torchaudio

# fish-speechをインストールします。
pip3 install -e .

# (Ubuntu / Debianユーザー) soxをインストールします。
apt install libsox-dev

変更履歴

  • 2024/07/02: Fish-Speech を 1.2 バージョンに更新し、VITS デコーダーを削除し、ゼロショット能力を大幅に強化しました。
  • 2024/05/10: Fish-Speech を 1.1 バージョンに更新し、VITS デコーダーを実装して WER を減少させ、音色の類似性を向上させました。
  • 2024/04/22: Fish-Speech 1.0 バージョンを完成させ、VQGAN および LLAMA モデルを大幅に修正しました。
  • 2023/12/28: lora微調整サポートを追加しました。
  • 2023/12/27: gradient checkpointingcausual sampling、およびflash-attnサポートを追加しました。
  • 2023/12/19: webui および HTTP API を更新しました。
  • 2023/12/18: 微調整ドキュメントおよび関連例を更新しました。
  • 2023/12/17: text2semanticモデルを更新し、音素フリーモードをサポートしました。
  • 2023/12/13: ベータ版をリリースし、VQGAN モデルおよび LLAMA に基づく言語モデル(音素のみサポート)を含みます。

謝辞