Speech Studio
تطبيق Mac مفتوح المصدر للاستنساخ الصوتي المحلي وتوليد حوار متعدد المتحدثين. اسحب عينة صوتية، استنسخها، اكتب مشهداً، وركّب — كل ذلك على حاسوبك المحمول. بدون مفاتيح API، بدون سحابة، بدون تسعير لكل حرف.
اختبار أعمى لمدة 30 ثانية: صوت حقيقي، نفس الصوت مستنسخ محلياً بواسطة Speech Studio على MacBook، ونفس الصوت مستنسخ بواسطة ElevenLabs في السحابة. هل تستطيع التمييز بينها؟
ماذا يفعل
- استنساخ الصوت من مرجع قصير — اسحب بضع ثوانٍ من الكلام واستنسخ الصوت محلياً.
- توليد حوار متعدد المتحدثين — اكتب مشهداً بعدة متحدثين وقم بتركيبهم جميعاً في تمريرة واحدة.
- يعمل بالكامل على جهاز Mac — VoxCPM2 عبر MLX، وDeepFilterNet3 لتقليل الضوضاء، دون الحاجة إلى شبكة.
- مفتوح المصدر بموجب Apache 2.0 — fork، تضمين، بناء فوقه.
المتطلبات
- macOS 15+ (Apple Silicon)، Windows 10+ (x64)، أو Linux (x64)
- Apple Silicon على نظام Mac؛ أي معالج حديث 64-بت على Windows/Linux
- ذاكرة عشوائية لا تقل عن 8 GB (يُنصح بـ 16 GB)
- نحو 3–5 GB من القرص لنماذج الكلام (يتم تنزيلها عند أول تشغيل)
التثبيت
نزّل النسخة المناسبة لمنصّتك من GitHub Releases — macOS .dmg، أو Windows .msi/.exe، أو Linux .deb/.AppImage — ثم شغّلها:
هذه النسخ غير موقَّعة: على macOS افتحها عبر النقر بالزر الأيمن → افتح (أو إعدادات النظام → الخصوصية والأمن → افتح على أي حال)؛ على Windows اختر مزيد من المعلومات → التشغيل على أي حال في SmartScreen. يُنزّل أول تشغيل نموذج الكلام VoxCPM2 (نحو 2.75 GB على macOS، ونحو 4.6 GB على Windows/Linux) ويخزّنه مؤقتاً؛ التشغيلات اللاحقة تستخدم الذاكرة المؤقتة.
نفس خط أنابيب الاستنساخ متوفر في CLI الخاص بـ speech: brew install speech، ثم speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — مفيد للسكربتات أو التحضير دفعة. اطّلع على دليل استنساخ الصوت للتدفق الكامل.
Speech Studio في معاينة نشطة (v0.0.4)، مع مثبِّتات لأنظمة macOS, Windows, and Linux — يستنسخ macOS عبر MLX، ويستنسخ Windows وLinux عبر محرك LiteRT VoxCPM2 الموجود في speech-core. يُتابع المستودع github.com/soniqo/speech-studio تطبيق الواجهة؛ اضغط star/watch لتلقي إشعارات الإصدارات.
على ماذا يعتمد
Speech Studio هو واجهة رسومية رقيقة فوق speech-swift، مكتبة Swift مفتوحة المصدر التي تشحن كل النماذج المستخدمة في العرض التوضيحي:
- VoxCPM2 — نموذج استنساخ الصوت (zero-shot، مرجع قصير)
- DeepFilterNet3 — يزيل الضوضاء من المرجع والمخرج المستنسخ
- Qwen3-ASR — يحاذي الصوت مع النص (يُستخدم في خط أنابيب بناء الاختبار الأعمى في العرض)
- Forced Alignment — طوابع زمنية على مستوى الكلمة للتحرير
- استنساخ الصوت دليل — نظرة عامة شاملة على خط الأنابيب
خارطة الطريق
- اليوم: macOS, Windows, and Linux.
- التالي: إصدارات موقَّعة وموثَّقة (دون مطالبات Gatekeeper/SmartScreen).
- بعد ذلك: واجهة تحرير أعمق، ودعم إضافات لنماذج استنساخ قابلة للاستبدال.
الملاحظات
افتح issue على github.com/soniqo/speech-studio/issues — كل واحدة تُقرأ.