OpenAudio (سابقاً Fish-Speech)

إشعار الترخيص
يتم إصدار قاعدة الكود هذه تحت رخصة Apache ويتم إصدار جميع أوزان النماذج تحت رخصة CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.
إخلاء المسؤولية القانونية
نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
المقدمة
نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى OpenAudio - تقديم سلسلة جديدة من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech مع تحسينات كبيرة وقدرات جديدة.
Openaudio-S1-mini: المدونة; الفيديو; Hugging Face;
Fish-Speech v1.5: الفيديو; Hugging Face;
النقاط البارزة
جودة TTS ممتازة
نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
النموذج | معدل خطأ الكلمات (WER) | معدل خطأ الأحرف (CER) | مسافة المتحدث |
---|---|---|---|
S1 | 0.008 | 0.004 | 0.332 |
S1-mini | 0.011 | 0.005 | 0.380 |
أفضل نموذج في TTS-Arena2
حقق OpenAudio S1 المرتبة الأولى في TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:

التحكم في الكلام
يدعم OpenAudio S1 مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة لتعزيز تركيب الكلام:
-
المشاعر الأساسية:
-
المشاعر المتقدمة:
(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)
-
علامات النبرة:
-
تأثيرات صوتية خاصة:
يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.
نوعان من النماذج
نقدم متغيرين من النماذج لتناسب الاحتياجات المختلفة:
-
OpenAudio S1 (4 مليار معامل): نموذجنا الرئيسي كامل الميزات المتاح على fish.audio، يقدم أعلى جودة لتركيب الكلام مع جميع الميزات المتقدمة.
-
OpenAudio S1-mini (0.5 مليار معامل): إصدار مقطر بالقدرات الأساسية، متاح على Hugging Face Space، محسن للاستنتاج الأسرع مع الحفاظ على الجودة الممتازة.
كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).
الميزات
-
TTS بدون عينات وبعينات قليلة: أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. للإرشادات التفصيلية، راجع أفضل ممارسات استنساخ الصوت.
-
الدعم متعدد اللغات وعبر اللغات: ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
-
لا يعتمد على الصوتيات: النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
-
دقيق للغاية: يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
-
سريع: مع تسريع torch compile، عامل الوقت الحقيقي حوالي 1:7 على GPU Nvidia RTX 4090.
-
استنتاج WebUI: يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
-
استنتاج GUI: يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. راجع GUI.
-
صديق للنشر: قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
الوسائط والعروض التوضيحية
وسائل التواصل الاجتماعي
العروض التوضيحية التفاعلية
عروض الفيديو
الوثائق
البداية السريعة
- بناء البيئة - إعداد بيئة التطوير الخاصة بك
- دليل الاستنتاج - تشغيل النموذج وإنتاج الكلام
المجتمع والدعم
- Discord: انضم إلى مجتمع Discord الخاص بنا
- الموقع: قم بزيارة OpenAudio.com للحصول على آخر التحديثات
- جرب عبر الإنترنت: Fish Audio Playground