Speech Studio

Open-Source Mac-App für lokales Voice Cloning und Mehrsprecher-Dialoggenerierung. Sprachprobe ablegen, klonen, Szene schreiben, synthetisieren — alles auf deinem Laptop. Keine API-Keys, keine Cloud, keine Zeichenabrechnung.

30-Sekunden-Blindtest: eine echte Stimme, dieselbe Stimme lokal von Speech Studio auf einem MacBook geklont, und dieselbe Stimme von ElevenLabs in der Cloud geklont. Kannst du sie auseinanderhalten?

Was es kann

Voraussetzungen

Installieren

Lade den Build für deine Plattform von GitHub Releases — macOS .dmg, Windows .msi/.exe oder Linux .deb/.AppImage — und starte ihn:

Die Builds sind unsigniert: Unter macOS per Rechtsklick → Öffnen starten (oder Systemeinstellungen → Datenschutz & Sicherheit → Trotzdem öffnen); unter Windows in SmartScreen Weitere Informationen → Trotzdem ausführen wählen. Der erste Start lädt das VoxCPM2-Sprachmodell (~2.75 GB unter macOS, ~4.6 GB unter Windows/Linux) und legt es im Cache ab; spätere Starts nutzen den Cache.

Lieber CLI?

Dieselbe Voice-Cloning-Pipeline steckt in der CLI speech: brew install speech, dann speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — praktisch für Skripte oder Batch-Vorrendering. Den kompletten Ablauf zeigt der Voice-Cloning-Guide.

Status

Speech Studio ist im aktiven Preview (v0.0.4), mit Installern für macOS, Windows, and Linux — macOS klont über MLX, Windows und Linux über die LiteRT-VoxCPM2-Engine von speech-core. Das Quell-Repo github.com/soniqo/speech-studio verfolgt die GUI-App; mit star/watch erhältst du Benachrichtigungen zu Releases.

Worauf es basiert

Speech Studio ist eine schlanke GUI auf speech-swift, der Open-Source-Swift-Bibliothek, die jedes in der Demo gezeigte Modell mitbringt:

Roadmap

Feedback

Issue eröffnen unter github.com/soniqo/speech-studio/issues — jedes wird gelesen.