Speech Studio

ओपन-सोर्स Mac ऐप जो लोकल वॉइस क्लोनिंग और मल्टी-स्पीकर डायलॉग जनरेशन करता है। वॉइस सैम्पल डालें, क्लोन करें, सीन लिखें, सिंथेसाइज़ करें — पूरी तरह आपके लैपटॉप पर। कोई API key नहीं, कोई क्लाउड नहीं, प्रति-कैरेक्टर कीमत नहीं।

30 सेकंड का ब्लाइंड टेस्ट: एक असली आवाज़, वही आवाज़ Speech Studio द्वारा MacBook पर लोकल रूप से क्लोन की गई, और वही आवाज़ ElevenLabs द्वारा क्लाउड में क्लोन की गई। क्या आप पहचान सकते हैं कि कौन सी कौन सी है?

क्या करता है

आवश्यकताएँ

इंस्टॉल

GitHub Releases से अपने प्लेटफ़ॉर्म के लिए बिल्ड डाउनलोड करें — macOS .dmg, Windows .msi/.exe, या Linux .deb/.AppImage — फिर इसे लॉन्च करें:

ये बिल्ड अहस्ताक्षरित हैं: macOS पर राइट-क्लिक → Open से खोलें (या System Settings → Privacy & Security → Open anyway); Windows पर SmartScreen में More info → Run anyway चुनें। पहली बार लॉन्च करने पर VoxCPM2 स्पीच मॉडल (macOS पर ~2.75 GB, Windows/Linux पर ~4.6 GB) डाउनलोड होकर कैश हो जाता है; अगले लॉन्च कैश का पुनः उपयोग करते हैं।

CLI पसंद है?

वही वॉइस क्लोनिंग पाइपलाइन speech CLI में आती है: brew install speech, फिर speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — स्क्रिप्टिंग या batch pre-render के लिए उपयोगी। पूरा flow देखने के लिए वॉइस क्लोनिंग गाइड देखें।

स्थिति

Speech Studio सक्रिय preview में है (v0.0.4), जिसमें macOS, Windows, and Linux के लिए इंस्टॉलर हैं — macOS MLX के माध्यम से क्लोन करता है, Windows और Linux speech-core के LiteRT VoxCPM2 इंजन के माध्यम से। सोर्स रेपो github.com/soniqo/speech-studio GUI ऐप को ट्रैक करता है; release notifications के लिए star/watch करें।

किस पर बना है

Speech Studio speech-swift पर बनी एक हल्की GUI है, यह ओपन-सोर्स Swift लाइब्रेरी डेमो में उपयोग किए गए हर मॉडल को शामिल करती है:

रोडमैप

फीडबैक

github.com/soniqo/speech-studio/issues पर एक issue खोलें — हर एक पढ़ा जाता है।