Speech Studio

App Mac open source pour le clonage vocal local et la génération de dialogues multi-locuteurs. Déposez un échantillon, clonez la voix, écrivez la scène, synthétisez — tout sur votre laptop. Pas de clé API, pas de cloud, pas de facturation au caractère.

github.com/soniqo/speech-studio Apache 2.0 Installer

Test à l’aveugle de 30 secondes : une vraie voix, la même voix clonée localement par Speech Studio sur un MacBook, et la même voix clonée par ElevenLabs dans le cloud. Pouvez-vous les distinguer ?

Ce qu’il fait

Clonage vocal à partir d’une courte référence — déposez quelques secondes de voix, clonez-la localement.
Génération de dialogues multi-locuteurs — écrivez une scène avec plusieurs locuteurs, synthétisez-les en une seule passe.
Fonctionne entièrement sur votre Mac — VoxCPM2 via MLX, DeepFilterNet3 pour la suppression du bruit, aucun réseau requis.
Open source sous Apache 2.0 — forkez-le, intégrez-le, construisez par-dessus.

Pré-requis

macOS 15+ (Apple Silicon), Windows 10+ (x64) ou Linux (x64)
Apple Silicon sur Mac ; tout CPU 64 bits récent sous Windows/Linux
8 Go de RAM minimum (16 Go recommandés)
~3–5 Go d’espace disque pour les modèles vocaux (téléchargés au premier lancement)

Installer

Téléchargez le build adapté à votre plateforme depuis GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — puis lancez-le :

↓ Télécharger la dernière version Toutes les releases

Les builds ne sont pas signés : sous macOS, ouvrez-le par clic droit → Ouvrir (ou Réglages Système → Confidentialité et sécurité → Ouvrir quand même) ; sous Windows, choisissez Informations complémentaires → Exécuter quand même dans SmartScreen. Le premier lancement télécharge le modèle vocal VoxCPM2 (~2.75 Go sous macOS, ~4.6 Go sous Windows/Linux) et le met en cache ; les lancements suivants réutilisent le cache.

Vous préférez la CLI ?

Le même pipeline de clonage est livré dans la CLI speech : brew install speech, puis speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — pratique pour scripter ou pré-rendre par lots. Voir le guide de clonage vocal pour le flux complet.

Statut

Speech Studio est en preview actif (v0.0.4), avec des installeurs pour macOS, Windows, and Linux — macOS clone via MLX, Windows et Linux via le moteur LiteRT VoxCPM2 de speech-core. Le dépôt source github.com/soniqo/speech-studio suit l’app GUI ; mettez star/watch pour être notifié des releases.

Sur quoi c’est bâti

Speech Studio est une GUI fine au-dessus de speech-swift, la bibliothèque Swift open source qui embarque tous les modèles utilisés dans la démo :

VoxCPM2 — le modèle de clonage vocal (zero-shot, référence courte)
DeepFilterNet3 — débruite la référence et la sortie clonée
Qwen3-ASR — aligne la voix sur le texte (utilisé dans le pipeline du test à l’aveugle)
Alignement Forcé — horodatages au niveau du mot pour l’édition
Clonage Vocal guide — vue d’ensemble complète du pipeline

Feuille de route

Aujourd’hui : macOS, Windows, and Linux.
Ensuite : builds signés & notariés (sans invites Gatekeeper/SmartScreen).
Plus tard : surface d’édition plus poussée, support de plugins pour des modèles de clonage interchangeables.

Retours

Ouvrez un issue à l’adresse github.com/soniqo/speech-studio/issues — chacun est lu.