Speech Studio
App Mac open source para clonación de voz local y generación de diálogos con varios hablantes. Suelta una muestra de voz, clónala, escribe una escena y sintetiza — todo en tu portátil. Sin claves de API, sin nube, sin precio por carácter.
Prueba ciega de 30 segundos: una voz real, la misma voz clonada localmente por Speech Studio en un MacBook, y la misma voz clonada por ElevenLabs en la nube. ¿Puedes distinguirlas?
Qué hace
- Clonación de voz desde una referencia corta — suelta unos segundos de audio y clona la voz localmente.
- Generación de diálogos multi-hablante — escribe una escena con varios hablantes y sintetízalos todos en una sola pasada.
- Funciona completamente en tu Mac — VoxCPM2 vía MLX, DeepFilterNet3 para supresión de ruido, sin red.
- Open source bajo Apache 2.0 — haz fork, embebe, construye encima.
Requisitos
- macOS 15+ (Apple Silicon), Windows 10+ (x64) o Linux (x64)
- Apple Silicon en Mac; cualquier CPU de 64 bits moderna en Windows/Linux
- Mínimo 8 GB de RAM (16 GB recomendado)
- ~3–5 GB de disco para los modelos de voz (descargados en el primer arranque)
Instalar
Descarga el build para tu plataforma desde GitHub Releases — macOS .dmg, Windows .msi/.exe o Linux .deb/.AppImage — y lánzalo:
Los builds no están firmados: en macOS ábrelo con clic derecho → Abrir (o Ajustes del Sistema → Privacidad y Seguridad → Abrir igualmente); en Windows elige Más información → Ejecutar de todos modos en SmartScreen. El primer arranque descarga el modelo de voz VoxCPM2 (~2.75 GB en macOS, ~4.6 GB en Windows/Linux) y lo guarda en caché; los siguientes reutilizan la caché.
El mismo pipeline de clonación de voz viene en la CLI speech: brew install speech, luego speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts o pre-renderizado en lote. Consulta la guía de clonación de voz para el flujo completo.
Speech Studio está en preview activo (v0.0.4), con instaladores para macOS, Windows, and Linux — macOS clona vía MLX, Windows y Linux vía el motor LiteRT VoxCPM2 de speech-core. El repositorio fuente github.com/soniqo/speech-studio sigue la app GUI; márcalo con star/watch para recibir notificaciones de releases.
Sobre qué está construido
Speech Studio es una GUI ligera sobre speech-swift, la librería Swift open source que provee todos los modelos usados en la demo:
- VoxCPM2 — el modelo de clonación de voz (zero-shot, referencia corta)
- DeepFilterNet3 — suprime el ruido de la referencia y la salida clonada
- Qwen3-ASR — alinea la voz con el texto (usada en el pipeline de construcción de la prueba ciega)
- Alineación Forzada — marcas de tiempo a nivel de palabra para la edición
- Clonación de Voz guía — visión completa del pipeline
Hoja de ruta
- Hoy: macOS, Windows, and Linux.
- Siguiente: builds firmados y notarizados (sin prompts de Gatekeeper/SmartScreen).
- Después: superficie de edición más profunda, soporte de plugins para intercambiar modelos de clonación.
Feedback
Abre un issue en github.com/soniqo/speech-studio/issues — todos se leen.