Speech Studio

تطبيق Mac مفتوح المصدر للاستنساخ الصوتي المحلي وتوليد حوار متعدد المتحدثين. اسحب عينة صوتية، استنسخها، اكتب مشهداً، وركّب — كل ذلك على حاسوبك المحمول. بدون مفاتيح API، بدون سحابة، بدون تسعير لكل حرف.

github.com/soniqo/speech-studio Apache 2.0 تثبيت

اختبار أعمى لمدة 30 ثانية: صوت حقيقي، نفس الصوت مستنسخ محلياً بواسطة Speech Studio على MacBook، ونفس الصوت مستنسخ بواسطة ElevenLabs في السحابة. هل تستطيع التمييز بينها؟

ماذا يفعل

استنساخ الصوت من مرجع قصير — اسحب بضع ثوانٍ من الكلام واستنسخ الصوت محلياً.
توليد حوار متعدد المتحدثين — اكتب مشهداً بعدة متحدثين وقم بتركيبهم جميعاً في تمريرة واحدة.
يعمل بالكامل على جهاز Mac — VoxCPM2 عبر MLX، وDeepFilterNet3 لتقليل الضوضاء، دون الحاجة إلى شبكة.
مفتوح المصدر بموجب Apache 2.0 — fork، تضمين، بناء فوقه.

المتطلبات

macOS 15+ (Apple Silicon)، Windows 10+ (x64)، أو Linux (x64)
Apple Silicon على نظام Mac؛ أي معالج حديث 64-بت على Windows/Linux
ذاكرة عشوائية لا تقل عن 8 GB (يُنصح بـ 16 GB)
نحو 3–5 GB من القرص لنماذج الكلام (يتم تنزيلها عند أول تشغيل)

التثبيت

نزّل النسخة المناسبة لمنصّتك من GitHub Releases — macOS .dmg، أو Windows .msi/.exe، أو Linux .deb/.AppImage — ثم شغّلها:

↓ تنزيل الأحدث كل الإصدارات

هذه النسخ غير موقَّعة: على macOS افتحها عبر النقر بالزر الأيمن → افتح (أو إعدادات النظام → الخصوصية والأمن → افتح على أي حال)؛ على Windows اختر مزيد من المعلومات → التشغيل على أي حال في SmartScreen. يُنزّل أول تشغيل نموذج الكلام VoxCPM2 (نحو 2.75 GB على macOS، ونحو 4.6 GB على Windows/Linux) ويخزّنه مؤقتاً؛ التشغيلات اللاحقة تستخدم الذاكرة المؤقتة.

تفضّل سطر الأوامر؟

نفس خط أنابيب الاستنساخ متوفر في CLI الخاص بـ speech: brew install speech، ثم speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — مفيد للسكربتات أو التحضير دفعة. اطّلع على دليل استنساخ الصوت للتدفق الكامل.

الحالة

Speech Studio في معاينة نشطة (v0.0.4)، مع مثبِّتات لأنظمة macOS, Windows, and Linux — يستنسخ macOS عبر MLX، ويستنسخ Windows وLinux عبر محرك LiteRT VoxCPM2 الموجود في speech-core. يُتابع المستودع github.com/soniqo/speech-studio تطبيق الواجهة؛ اضغط star/watch لتلقي إشعارات الإصدارات.

على ماذا يعتمد

Speech Studio هو واجهة رسومية رقيقة فوق speech-swift، مكتبة Swift مفتوحة المصدر التي تشحن كل النماذج المستخدمة في العرض التوضيحي:

VoxCPM2 — نموذج استنساخ الصوت (zero-shot، مرجع قصير)
DeepFilterNet3 — يزيل الضوضاء من المرجع والمخرج المستنسخ
Qwen3-ASR — يحاذي الصوت مع النص (يُستخدم في خط أنابيب بناء الاختبار الأعمى في العرض)
Forced Alignment — طوابع زمنية على مستوى الكلمة للتحرير
استنساخ الصوت دليل — نظرة عامة شاملة على خط الأنابيب

خارطة الطريق

اليوم: macOS, Windows, and Linux.
التالي: إصدارات موقَّعة وموثَّقة (دون مطالبات Gatekeeper/SmartScreen).
بعد ذلك: واجهة تحرير أعمق، ودعم إضافات لنماذج استنساخ قابلة للاستبدال.

الملاحظات

افتح issue على github.com/soniqo/speech-studio/issues — كل واحدة تُقرأ.