Speech Studio
ओपन-सोर्स Mac ऐप जो लोकल वॉइस क्लोनिंग और मल्टी-स्पीकर डायलॉग जनरेशन करता है। वॉइस सैम्पल डालें, क्लोन करें, सीन लिखें, सिंथेसाइज़ करें — पूरी तरह आपके लैपटॉप पर। कोई API key नहीं, कोई क्लाउड नहीं, प्रति-कैरेक्टर कीमत नहीं।
30 सेकंड का ब्लाइंड टेस्ट: एक असली आवाज़, वही आवाज़ Speech Studio द्वारा MacBook पर लोकल रूप से क्लोन की गई, और वही आवाज़ ElevenLabs द्वारा क्लाउड में क्लोन की गई। क्या आप पहचान सकते हैं कि कौन सी कौन सी है?
क्या करता है
- एक छोटी रेफ़रेंस से वॉइस क्लोनिंग — कुछ सेकंड की स्पीच डालें, उस आवाज़ को लोकल रूप से क्लोन करें।
- मल्टी-स्पीकर डायलॉग जनरेशन — कई स्पीकर्स के साथ एक सीन लिखें, सभी को एक ही पास में सिंथेसाइज़ करें।
- पूरी तरह आपके Mac पर चलता है — MLX के माध्यम से VoxCPM2, नॉइज़ सप्रेशन के लिए DeepFilterNet3, नेटवर्क ज़रूरी नहीं।
- Apache 2.0 के तहत ओपन सोर्स — fork करें, embed करें, इस पर बनाएं।
आवश्यकताएँ
- macOS 15+ (Apple Silicon), Windows 10+ (x64), या Linux (x64)
- Mac पर Apple Silicon; Windows/Linux पर कोई भी आधुनिक 64-बिट CPU
- न्यूनतम 8 GB RAM (16 GB अनुशंसित)
- स्पीच मॉडल्स के लिए लगभग 3–5 GB डिस्क (पहली बार चलाने पर डाउनलोड)
इंस्टॉल
GitHub Releases से अपने प्लेटफ़ॉर्म के लिए बिल्ड डाउनलोड करें — macOS .dmg, Windows .msi/.exe, या Linux .deb/.AppImage — फिर इसे लॉन्च करें:
ये बिल्ड अहस्ताक्षरित हैं: macOS पर राइट-क्लिक → Open से खोलें (या System Settings → Privacy & Security → Open anyway); Windows पर SmartScreen में More info → Run anyway चुनें। पहली बार लॉन्च करने पर VoxCPM2 स्पीच मॉडल (macOS पर ~2.75 GB, Windows/Linux पर ~4.6 GB) डाउनलोड होकर कैश हो जाता है; अगले लॉन्च कैश का पुनः उपयोग करते हैं।
वही वॉइस क्लोनिंग पाइपलाइन speech CLI में आती है: brew install speech, फिर speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — स्क्रिप्टिंग या batch pre-render के लिए उपयोगी। पूरा flow देखने के लिए वॉइस क्लोनिंग गाइड देखें।
Speech Studio सक्रिय preview में है (v0.0.4), जिसमें macOS, Windows, and Linux के लिए इंस्टॉलर हैं — macOS MLX के माध्यम से क्लोन करता है, Windows और Linux speech-core के LiteRT VoxCPM2 इंजन के माध्यम से। सोर्स रेपो github.com/soniqo/speech-studio GUI ऐप को ट्रैक करता है; release notifications के लिए star/watch करें।
किस पर बना है
Speech Studio speech-swift पर बनी एक हल्की GUI है, यह ओपन-सोर्स Swift लाइब्रेरी डेमो में उपयोग किए गए हर मॉडल को शामिल करती है:
- VoxCPM2 — वॉइस क्लोनिंग मॉडल (zero-shot, छोटा reference)
- DeepFilterNet3 — reference + cloned output को denoise करें
- Qwen3-ASR — स्पीच को टेक्स्ट से align करें (demo के ब्लाइंड-टेस्ट build पाइपलाइन में उपयोग)
- Forced Alignment — एडिटिंग के लिए word-level timestamps
- वॉइस क्लोनिंग गाइड — पूरा पाइपलाइन अवलोकन
रोडमैप
- आज: macOS, Windows, and Linux।
- अगला: हस्ताक्षरित & नोटराइज़्ड बिल्ड (कोई Gatekeeper/SmartScreen प्रॉम्प्ट नहीं)।
- इसके बाद: गहरा editing interface, अदला-बदली होने वाले क्लोनिंग मॉडल्स के लिए plugin support।
फीडबैक
github.com/soniqo/speech-studio/issues पर एक issue खोलें — हर एक पढ़ा जाता है।