OpenAudio (旧 Fish-Speech)

先進的なText-to-Speechモデルシリーズ

今すぐ試す： Fish Audio Playground | 詳細情報： OpenAudio ウェブサイト

ライセンス通知

このコードベースは Apacheライセンス の下でリリースされ、すべてのモデル重みは CC-BY-NC-SA-4.0ライセンス の下でリリースされています。詳細は LICENSE を参照してください。

法的免責事項

コードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCAおよびその他の関連法規をご参照ください。

紹介

私たちは OpenAudio への改名を発表できることを嬉しく思います。Fish-Speechを基盤とし、大幅な改善と新機能を加えた、新しい先進的なText-to-Speechモデルシリーズを紹介します。

Openaudio-S1-mini: ブログ; 動画; Hugging Face;

Fish-Speech v1.5: 動画; Hugging Face;

ハイライト

優秀なTTS品質

Seed TTS評価指標を使用してモデルのパフォーマンスを評価した結果、OpenAudio S1は英語テキストで0.008 WERと0.004 CERを達成し、以前のモデルより大幅に改善されました。（英語、自動評価、OpenAI gpt-4o-転写に基づく、話者距離はRevai/pyannote-wespeaker-voxceleb-resnet34-LM使用）

モデル	単語誤り率 (WER)	文字誤り率 (CER)	話者距離
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

TTS-Arena2最高モデル

OpenAudio S1はTTS-Arena2で#1ランキングを達成しました。これはtext-to-speech評価のベンチマークです：

音声制御

OpenAudio S1は多様な感情、トーン、特殊マーカーをサポートして音声合成を強化します：

基本感情：

(怒った) (悲しい) (興奮した) (驚いた) (満足した) (喜んだ) 
(怖がった) (心配した) (動揺した) (緊張した) (欲求不満な) (落ち込んだ)
(共感した) (恥ずかしい) (嫌悪した) (感動した) (誇らしい) (リラックスした)
(感謝した) (自信のある) (興味のある) (好奇心のある) (困惑した) (楽しい)

高度な感情：

(軽蔑的な) (不幸な) (不安な) (ヒステリックな) (無関心な) 
(いらいらした) (罪悪感のある) (軽蔑的な) (パニックした) (激怒した) (不本意な)
(熱心な) (不賛成の) (否定的な) (否定する) (驚いた) (真剣な)
(皮肉な) (和解的な) (慰める) (誠実な) (冷笑的な)
(躊躇する) (譲歩する) (痛々しい) (気まずい) (面白がった)

（現在英語、中国語、日本語をサポート、より多くの言語が近日公開予定！）

トーンマーカー：

(急いだ調子で) (叫んで) (悲鳴をあげて) (ささやいて) (柔らかい調子で)

特殊音響効果：

(笑って) (くすくす笑って) (すすり泣いて) (大声で泣いて) (ため息をついて) (息を切らして)
(うめいて) (群衆の笑い声) (背景の笑い声) (観客の笑い声)

Ha,ha,haを使用してコントロールすることもでき、他にも多くの使用法があなた自身の探索を待っています。

2つのモデルタイプ

異なるニーズに対応する2つのモデルバリエーションを提供しています：

OpenAudio S1 (40億パラメータ)：fish.audio で利用可能な全機能搭載のフラッグシップモデルで、すべての高度な機能を備えた最高品質の音声合成を提供します。
OpenAudio S1-mini (5億パラメータ)：コア機能を備えた蒸留版で、Hugging Face Space で利用可能です。優秀な品質を維持しながら、より高速な推論のために最適化されています。

S1とS1-miniの両方にオンライン人間フィードバック強化学習（RLHF）が組み込まれています。

機能

ゼロショット・フューショットTTS： 10〜30秒の音声サンプルを入力するだけで高品質なTTS出力を生成します。詳細なガイドラインについては、音声クローニングのベストプラクティスをご覧ください。
多言語・言語横断サポート： 多言語テキストを入力ボックスにコピー＆ペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語をサポートしています。
音素依存なし： このモデルは強力な汎化能力を持ち、TTSに音素に依存しません。あらゆる言語スクリプトのテキストを処理できます。
高精度： Seed-TTS Evalで低い文字誤り率（CER）約0.4%と単語誤り率（WER）約0.8%を達成します。
高速： torch compile加速により、Nvidia RTX 4090でリアルタイム係数約1:7。
WebUI推論： Chrome、Firefox、Edge、その他のブラウザと互換性のあるGradioベースの使いやすいWebUIを備えています。
GUI推論： APIサーバーとシームレスに連携するPyQt6グラフィカルインターフェースを提供します。Linux、Windows、macOSをサポートします。GUIを見る。
デプロイフレンドリー： Linux、Windows（MacOS近日公開）のネイティブサポートで推論サーバーを簡単にセットアップし、速度低下を最小化します。