Speech Studio
Open-Source Mac-App für lokales Voice Cloning und Mehrsprecher-Dialoggenerierung. Sprachprobe ablegen, klonen, Szene schreiben, synthetisieren — alles auf deinem Laptop. Keine API-Keys, keine Cloud, keine Zeichenabrechnung.
30-Sekunden-Blindtest: eine echte Stimme, dieselbe Stimme lokal von Speech Studio auf einem MacBook geklont, und dieselbe Stimme von ElevenLabs in der Cloud geklont. Kannst du sie auseinanderhalten?
Was es kann
- Voice Cloning aus kurzer Referenz — wenige Sekunden Sprache einlegen, die Stimme lokal klonen.
- Mehrsprecher-Dialoggenerierung — Szene mit mehreren Sprechern schreiben, alles in einem Durchgang synthetisieren.
- Läuft komplett auf deinem Mac — VoxCPM2 via MLX, DeepFilterNet3 zur Rauschunterdrückung, kein Netzwerk nötig.
- Open Source unter Apache 2.0 — forken, einbinden, darauf aufbauen.
Voraussetzungen
- macOS 15+ (Apple Silicon), Windows 10+ (x64) oder Linux (x64)
- Apple Silicon auf dem Mac; jede moderne 64-Bit-CPU unter Windows/Linux
- Mindestens 8 GB RAM (16 GB empfohlen)
- ~3–5 GB Speicher für die Sprachmodelle (werden beim ersten Start geladen)
Installieren
Lade den Build für deine Plattform von GitHub Releases — macOS .dmg, Windows .msi/.exe oder Linux .deb/.AppImage — und starte ihn:
Die Builds sind unsigniert: Unter macOS per Rechtsklick → Öffnen starten (oder Systemeinstellungen → Datenschutz & Sicherheit → Trotzdem öffnen); unter Windows in SmartScreen Weitere Informationen → Trotzdem ausführen wählen. Der erste Start lädt das VoxCPM2-Sprachmodell (~2.75 GB unter macOS, ~4.6 GB unter Windows/Linux) und legt es im Cache ab; spätere Starts nutzen den Cache.
Dieselbe Voice-Cloning-Pipeline steckt in der CLI speech: brew install speech, dann speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — praktisch für Skripte oder Batch-Vorrendering. Den kompletten Ablauf zeigt der Voice-Cloning-Guide.
Speech Studio ist im aktiven Preview (v0.0.4), mit Installern für macOS, Windows, and Linux — macOS klont über MLX, Windows und Linux über die LiteRT-VoxCPM2-Engine von speech-core. Das Quell-Repo github.com/soniqo/speech-studio verfolgt die GUI-App; mit star/watch erhältst du Benachrichtigungen zu Releases.
Worauf es basiert
Speech Studio ist eine schlanke GUI auf speech-swift, der Open-Source-Swift-Bibliothek, die jedes in der Demo gezeigte Modell mitbringt:
- VoxCPM2 — das Voice-Cloning-Modell (Zero-Shot, kurze Referenz)
- DeepFilterNet3 — Rauschen aus Referenz und geklontem Output entfernen
- Qwen3-ASR — Sprache an Text ausrichten (im Build-Pipeline des Blindtests verwendet)
- Forced Alignment — Zeitstempel auf Wortebene fürs Editing
- Voice Cloning Guide — vollständiger Pipeline-Überblick
Roadmap
- Heute: macOS, Windows, and Linux.
- Als Nächstes: signierte & notarisierte Builds (keine Gatekeeper-/SmartScreen-Abfragen).
- Danach: tiefer integrierter Editor, Plugin-Support für austauschbare Cloning-Modelle.
Feedback
Issue eröffnen unter github.com/soniqo/speech-studio/issues — jedes wird gelesen.