Speech Studio
Yerel ses klonlama ve çok konuşmacılı diyalog üretimi için açık kaynak Mac uygulaması. Bir ses örneği bırakın, klonlayın, sahne yazın ve sentezleyin — tamamı dizüstünüzde. API anahtarı yok, bulut yok, karakter başı ücret yok.
30 saniyelik kör test: gerçek bir ses, aynı sesin MacBook üzerinde Speech Studio tarafından yerel olarak klonlanmış hali ve aynı sesin ElevenLabs tarafından bulutta klonlanmış hali. Hangisinin hangisi olduğunu söyleyebilir misiniz?
Ne yapar
- Kısa bir referansla ses klonlama — birkaç saniyelik konuşma bırakın, sesi yerel olarak klonlayın.
- Çok konuşmacılı diyalog üretimi — birden çok konuşmacılı bir sahne yazın, hepsini tek seferde sentezleyin.
- Tamamen Mac'inizde çalışır — MLX üzerinde VoxCPM2, gürültü bastırma için DeepFilterNet3, ağ gerekmiyor.
- Apache 2.0 ile açık kaynak — fork edin, gömün, üstüne inşa edin.
Gereksinimler
- macOS 15+ (Apple Silicon), Windows 10+ (x64) veya Linux (x64)
- Mac'te Apple Silicon; Windows/Linux'ta herhangi bir modern 64 bit CPU
- En az 8 GB RAM (16 GB önerilir)
- Konuşma modelleri için yaklaşık 3–5 GB disk (ilk çalıştırmada indirilir)
Kurulum
GitHub Releases'tan platformunuza uygun yapıyı indirin — macOS .dmg, Windows .msi/.exe veya Linux .deb/.AppImage — ardından çalıştırın:
Bu yapılar imzasızdır: macOS'te sağ tıklayıp → Aç ile açın (veya Sistem Ayarları → Gizlilik ve Güvenlik → Yine de Aç); Windows'ta SmartScreen'de Ek bilgi → Yine de çalıştır seçeneğini seçin. İlk çalıştırma VoxCPM2 konuşma modelini (macOS'te ~2.75 GB, Windows/Linux'ta ~4.6 GB) indirir ve önbelleğe alır; sonraki çalıştırmalar önbelleği yeniden kullanır.
Aynı ses klonlama hattı speech CLI ile de gelir: brew install speech, sonra speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — komut dosyaları veya toplu ön-render için kullanışlı. Tam akış için ses klonlama kılavuzuna bakın.
Speech Studio aktif önizlemede (v0.0.4); macOS, Windows, and Linux için kurulum dosyalarıyla geliyor — macOS MLX ile, Windows ve Linux ise speech-core'un LiteRT VoxCPM2 motoruyla klonluyor. Kaynak deposu github.com/soniqo/speech-studio GUI uygulamasını takip ediyor; sürüm bildirimleri için star/watch yapın.
Üzerine inşa edildiği şey
Speech Studio, demo'da kullanılan tüm modelleri sağlayan açık kaynak Swift kütüphanesi speech-swift üzerine ince bir GUI'dir:
- VoxCPM2 — ses klonlama modeli (zero-shot, kısa referans)
- DeepFilterNet3 — referansı ve klonlanmış çıktıyı gürültüden arındırır
- Qwen3-ASR — sesi metne hizalar (demo'nun kör test inşa hattında kullanılır)
- Forced Alignment — düzenleme için kelime düzeyinde zaman damgaları
- Ses Klonlama kılavuz — boru hattının tam görünümü
Yol Haritası
- Bugün: macOS, Windows, and Linux.
- Sırada: imzalı & noter onaylı yapılar (Gatekeeper/SmartScreen istemleri olmadan).
- Sonra: daha derin bir düzenleme yüzeyi, değiştirilebilir klonlama modelleri için eklenti desteği.
Geri Bildirim
github.com/soniqo/speech-studio/issues üzerinden issue açın — her biri okunur.