コンテンツにスキップ

OpenAudio (旧 Fish-Speech)

OpenAudio
先進的なText-to-Speechモデルシリーズ 今すぐ試す: Fish Audio Playground | 詳細情報: OpenAudio ウェブサイト

ライセンス通知

このコードベースは Apacheライセンス の下でリリースされ、すべてのモデル重みは CC-BY-NC-SA-4.0ライセンス の下でリリースされています。詳細は LICENSE を参照してください。

法的免責事項

コードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCAおよびその他の関連法規をご参照ください。

紹介

私たちは OpenAudio への改名を発表できることを嬉しく思います。Fish-Speechを基盤とし、大幅な改善と新機能を加えた、新しい先進的なText-to-Speechモデルシリーズを紹介します。

Openaudio-S1-mini: ブログ; 動画; Hugging Face;

Fish-Speech v1.5: 動画; Hugging Face;

ハイライト

優秀なTTS品質

Seed TTS評価指標を使用してモデルのパフォーマンスを評価した結果、OpenAudio S1は英語テキストで0.008 WER0.004 CERを達成し、以前のモデルより大幅に改善されました。(英語、自動評価、OpenAI gpt-4o-転写に基づく、話者距離はRevai/pyannote-wespeaker-voxceleb-resnet34-LM使用)

モデル 単語誤り率 (WER) 文字誤り率 (CER) 話者距離
S1 0.008 0.004 0.332
S1-mini 0.011 0.005 0.380

TTS-Arena2最高モデル

OpenAudio S1はTTS-Arena2#1ランキングを達成しました。これはtext-to-speech評価のベンチマークです:

TTS-Arena2 Ranking

音声制御

OpenAudio S1は多様な感情、トーン、特殊マーカーをサポートして音声合成を強化します:

  • 基本感情

    (怒った) (悲しい) (興奮した) (驚いた) (満足した) (喜んだ) 
    (怖がった) (心配した) (動揺した) (緊張した) (欲求不満な) (落ち込んだ)
    (共感した) (恥ずかしい) (嫌悪した) (感動した) (誇らしい) (リラックスした)
    (感謝した) (自信のある) (興味のある) (好奇心のある) (困惑した) (楽しい)
    

  • 高度な感情

    (軽蔑的な) (不幸な) (不安な) (ヒステリックな) (無関心な) 
    (いらいらした) (罪悪感のある) (軽蔑的な) (パニックした) (激怒した) (不本意な)
    (熱心な) (不賛成の) (否定的な) (否定する) (驚いた) (真剣な)
    (皮肉な) (和解的な) (慰める) (誠実な) (冷笑的な)
    (躊躇する) (譲歩する) (痛々しい) (気まずい) (面白がった)
    

(現在英語、中国語、日本語をサポート、より多くの言語が近日公開予定!)

  • トーンマーカー

    (急いだ調子で) (叫んで) (悲鳴をあげて) (ささやいて) (柔らかい調子で)
    

  • 特殊音響効果

    (笑って) (くすくす笑って) (すすり泣いて) (大声で泣いて) (ため息をついて) (息を切らして)
    (うめいて) (群衆の笑い声) (背景の笑い声) (観客の笑い声)
    

Ha,ha,haを使用してコントロールすることもでき、他にも多くの使用法があなた自身の探索を待っています。

2つのモデルタイプ

異なるニーズに対応する2つのモデルバリエーションを提供しています:

  • OpenAudio S1 (40億パラメータ)fish.audio で利用可能な全機能搭載のフラッグシップモデルで、すべての高度な機能を備えた最高品質の音声合成を提供します。

  • OpenAudio S1-mini (5億パラメータ):コア機能を備えた蒸留版で、Hugging Face Space で利用可能です。優秀な品質を維持しながら、より高速な推論のために最適化されています。

S1とS1-miniの両方にオンライン人間フィードバック強化学習(RLHF)が組み込まれています。

機能

  1. ゼロショット・フューショットTTS: 10〜30秒の音声サンプルを入力するだけで高品質なTTS出力を生成します。詳細なガイドラインについては、音声クローニングのベストプラクティスをご覧ください。

  2. 多言語・言語横断サポート: 多言語テキストを入力ボックスにコピー&ペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語をサポートしています。

  3. 音素依存なし: このモデルは強力な汎化能力を持ち、TTSに音素に依存しません。あらゆる言語スクリプトのテキストを処理できます。

  4. 高精度: Seed-TTS Evalで低い文字誤り率(CER)約0.4%と単語誤り率(WER)約0.8%を達成します。

  5. 高速: fish-tech加速により、Nvidia RTX 4060ラップトップでリアルタイム係数約1:5、Nvidia RTX 4090で約1:15を実現します。

  6. WebUI推論: Chrome、Firefox、Edge、その他のブラウザと互換性のあるGradioベースの使いやすいWebUIを備えています。

  7. GUI推論: APIサーバーとシームレスに連携するPyQt6グラフィカルインターフェースを提供します。Linux、Windows、macOSをサポートします。GUIを見る

  8. デプロイフレンドリー: Linux、Windows(MacOS近日公開)のネイティブサポートで推論サーバーを簡単にセットアップし、速度低下を最小化します。

メディア・デモ

ソーシャルメディア

Latest Demo on X

インタラクティブデモ

Try OpenAudio S1 Try S1 Mini

動画ショーケース

ドキュメント

クイックスタート

コミュニティ・サポート