انتقل إلى المحتوى

OpenAudio (سابقاً Fish-Speech)

OpenAudio
سلسلة نماذج تحويل النص إلى كلام المتقدمة جربه الآن: Fish Audio Playground | تعلم المزيد: موقع OpenAudio

إشعار الترخيص

يتم إصدار قاعدة الكود هذه تحت رخصة Apache ويتم إصدار جميع أوزان النماذج تحت رخصة CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.

إخلاء المسؤولية القانونية

نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.

المقدمة

نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى OpenAudio - تقديم سلسلة جديدة من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech مع تحسينات كبيرة وقدرات جديدة.

Openaudio-S1-mini: المدونة; الفيديو; Hugging Face;

Fish-Speech v1.5: الفيديو; Hugging Face;

النقاط البارزة

جودة TTS ممتازة

نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

النموذج معدل خطأ الكلمات (WER) معدل خطأ الأحرف (CER) مسافة المتحدث
S1 0.008 0.004 0.332
S1-mini 0.011 0.005 0.380

أفضل نموذج في TTS-Arena2

حقق OpenAudio S1 المرتبة الأولى في TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:

TTS-Arena2 Ranking

التحكم في الكلام

يدعم OpenAudio S1 مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة لتعزيز تركيب الكلام:

  • المشاعر الأساسية:

    (غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
    (خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
    (متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
    (ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
    

  • المشاعر المتقدمة:

    (محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
    (نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
    (متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
    (ساخر) (مصالح) (مواسي) (صادق) (ساخر)
    (متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
    

(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)

  • علامات النبرة:

    (بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)
    

  • تأثيرات صوتية خاصة:

    (ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
    (أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)
    

يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.

نوعان من النماذج

نقدم متغيرين من النماذج لتناسب الاحتياجات المختلفة:

  • OpenAudio S1 (4 مليار معامل): نموذجنا الرئيسي كامل الميزات المتاح على fish.audio، يقدم أعلى جودة لتركيب الكلام مع جميع الميزات المتقدمة.

  • OpenAudio S1-mini (0.5 مليار معامل): إصدار مقطر بالقدرات الأساسية، متاح على Hugging Face Space، محسن للاستنتاج الأسرع مع الحفاظ على الجودة الممتازة.

كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).

الميزات

  1. TTS بدون عينات وبعينات قليلة: أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. للإرشادات التفصيلية، راجع أفضل ممارسات استنساخ الصوت.

  2. الدعم متعدد اللغات وعبر اللغات: ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.

  3. لا يعتمد على الصوتيات: النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.

  4. دقيق للغاية: يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.

  5. سريع: مع تسريع torch compile، عامل الوقت الحقيقي حوالي 1:7 على GPU Nvidia RTX 4090.

  6. استنتاج WebUI: يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.

  7. استنتاج GUI: يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. راجع GUI.

  8. صديق للنشر: قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.

الوسائط والعروض التوضيحية

وسائل التواصل الاجتماعي

أحدث عرض توضيحي على X

العروض التوضيحية التفاعلية

جرب OpenAudio S1 جرب S1 Mini

عروض الفيديو

الوثائق

البداية السريعة

المجتمع والدعم