Speech Studio

App Mac open source pour le clonage vocal local et la génération de dialogues multi-locuteurs. Déposez un échantillon, clonez la voix, écrivez la scène, synthétisez — tout sur votre laptop. Pas de clé API, pas de cloud, pas de facturation au caractère.

Test à l’aveugle de 30 secondes : une vraie voix, la même voix clonée localement par Speech Studio sur un MacBook, et la même voix clonée par ElevenLabs dans le cloud. Pouvez-vous les distinguer ?

Ce qu’il fait

Pré-requis

Installer

Téléchargez le build adapté à votre plateforme depuis GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — puis lancez-le :

Les builds ne sont pas signés : sous macOS, ouvrez-le par clic droit → Ouvrir (ou Réglages Système → Confidentialité et sécurité → Ouvrir quand même) ; sous Windows, choisissez Informations complémentaires → Exécuter quand même dans SmartScreen. Le premier lancement télécharge le modèle vocal VoxCPM2 (~2.75 Go sous macOS, ~4.6 Go sous Windows/Linux) et le met en cache ; les lancements suivants réutilisent le cache.

Vous préférez la CLI ?

Le même pipeline de clonage est livré dans la CLI speech : brew install speech, puis speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — pratique pour scripter ou pré-rendre par lots. Voir le guide de clonage vocal pour le flux complet.

Statut

Speech Studio est en preview actif (v0.0.4), avec des installeurs pour macOS, Windows, and Linux — macOS clone via MLX, Windows et Linux via le moteur LiteRT VoxCPM2 de speech-core. Le dépôt source github.com/soniqo/speech-studio suit l’app GUI ; mettez star/watch pour être notifié des releases.

Sur quoi c’est bâti

Speech Studio est une GUI fine au-dessus de speech-swift, la bibliothèque Swift open source qui embarque tous les modèles utilisés dans la démo :

Feuille de route

Retours

Ouvrez un issue à l’adresse github.com/soniqo/speech-studio/issues — chacun est lu.