Speech Studio

Yerel ses klonlama ve çok konuşmacılı diyalog üretimi için açık kaynak Mac uygulaması. Bir ses örneği bırakın, klonlayın, sahne yazın ve sentezleyin — tamamı dizüstünüzde. API anahtarı yok, bulut yok, karakter başı ücret yok.

30 saniyelik kör test: gerçek bir ses, aynı sesin MacBook üzerinde Speech Studio tarafından yerel olarak klonlanmış hali ve aynı sesin ElevenLabs tarafından bulutta klonlanmış hali. Hangisinin hangisi olduğunu söyleyebilir misiniz?

Ne yapar

Gereksinimler

Kurulum

GitHub Releases'tan platformunuza uygun yapıyı indirin — macOS .dmg, Windows .msi/.exe veya Linux .deb/.AppImage — ardından çalıştırın:

Bu yapılar imzasızdır: macOS'te sağ tıklayıp → ile açın (veya Sistem Ayarları → Gizlilik ve Güvenlik → Yine de Aç); Windows'ta SmartScreen'de Ek bilgi → Yine de çalıştır seçeneğini seçin. İlk çalıştırma VoxCPM2 konuşma modelini (macOS'te ~2.75 GB, Windows/Linux'ta ~4.6 GB) indirir ve önbelleğe alır; sonraki çalıştırmalar önbelleği yeniden kullanır.

CLI tercih edenler?

Aynı ses klonlama hattı speech CLI ile de gelir: brew install speech, sonra speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — komut dosyaları veya toplu ön-render için kullanışlı. Tam akış için ses klonlama kılavuzuna bakın.

Durum

Speech Studio aktif önizlemede (v0.0.4); macOS, Windows, and Linux için kurulum dosyalarıyla geliyor — macOS MLX ile, Windows ve Linux ise speech-core'un LiteRT VoxCPM2 motoruyla klonluyor. Kaynak deposu github.com/soniqo/speech-studio GUI uygulamasını takip ediyor; sürüm bildirimleri için star/watch yapın.

Üzerine inşa edildiği şey

Speech Studio, demo'da kullanılan tüm modelleri sağlayan açık kaynak Swift kütüphanesi speech-swift üzerine ince bir GUI'dir:

Yol Haritası

Geri Bildirim

github.com/soniqo/speech-studio/issues üzerinden issue açın — her biri okunur.