Speech Studio
App Mac open source pour le clonage vocal local et la génération de dialogues multi-locuteurs. Déposez un échantillon, clonez la voix, écrivez la scène, synthétisez — tout sur votre laptop. Pas de clé API, pas de cloud, pas de facturation au caractère.
Test à l’aveugle de 30 secondes : une vraie voix, la même voix clonée localement par Speech Studio sur un MacBook, et la même voix clonée par ElevenLabs dans le cloud. Pouvez-vous les distinguer ?
Ce qu’il fait
- Clonage vocal à partir d’une courte référence — déposez quelques secondes de voix, clonez-la localement.
- Génération de dialogues multi-locuteurs — écrivez une scène avec plusieurs locuteurs, synthétisez-les en une seule passe.
- Fonctionne entièrement sur votre Mac — VoxCPM2 via MLX, DeepFilterNet3 pour la suppression du bruit, aucun réseau requis.
- Open source sous Apache 2.0 — forkez-le, intégrez-le, construisez par-dessus.
Pré-requis
- macOS 15+ (Apple Silicon), Windows 10+ (x64) ou Linux (x64)
- Apple Silicon sur Mac ; tout CPU 64 bits récent sous Windows/Linux
- 8 Go de RAM minimum (16 Go recommandés)
- ~3–5 Go d’espace disque pour les modèles vocaux (téléchargés au premier lancement)
Installer
Téléchargez le build adapté à votre plateforme depuis GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — puis lancez-le :
Les builds ne sont pas signés : sous macOS, ouvrez-le par clic droit → Ouvrir (ou Réglages Système → Confidentialité et sécurité → Ouvrir quand même) ; sous Windows, choisissez Informations complémentaires → Exécuter quand même dans SmartScreen. Le premier lancement télécharge le modèle vocal VoxCPM2 (~2.75 Go sous macOS, ~4.6 Go sous Windows/Linux) et le met en cache ; les lancements suivants réutilisent le cache.
Le même pipeline de clonage est livré dans la CLI speech : brew install speech, puis speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — pratique pour scripter ou pré-rendre par lots. Voir le guide de clonage vocal pour le flux complet.
Speech Studio est en preview actif (v0.0.4), avec des installeurs pour macOS, Windows, and Linux — macOS clone via MLX, Windows et Linux via le moteur LiteRT VoxCPM2 de speech-core. Le dépôt source github.com/soniqo/speech-studio suit l’app GUI ; mettez star/watch pour être notifié des releases.
Sur quoi c’est bâti
Speech Studio est une GUI fine au-dessus de speech-swift, la bibliothèque Swift open source qui embarque tous les modèles utilisés dans la démo :
- VoxCPM2 — le modèle de clonage vocal (zero-shot, référence courte)
- DeepFilterNet3 — débruite la référence et la sortie clonée
- Qwen3-ASR — aligne la voix sur le texte (utilisé dans le pipeline du test à l’aveugle)
- Alignement Forcé — horodatages au niveau du mot pour l’édition
- Clonage Vocal guide — vue d’ensemble complète du pipeline
Feuille de route
- Aujourd’hui : macOS, Windows, and Linux.
- Ensuite : builds signés & notariés (sans invites Gatekeeper/SmartScreen).
- Plus tard : surface d’édition plus poussée, support de plugins pour des modèles de clonage interchangeables.
Retours
Ouvrez un issue à l’adresse github.com/soniqo/speech-studio/issues — chacun est lu.