Speech Studio

App Mac open source para clonación de voz local y generación de diálogos con varios hablantes. Suelta una muestra de voz, clónala, escribe una escena y sintetiza — todo en tu portátil. Sin claves de API, sin nube, sin precio por carácter.

github.com/soniqo/speech-studio Apache 2.0 Instalar

Prueba ciega de 30 segundos: una voz real, la misma voz clonada localmente por Speech Studio en un MacBook, y la misma voz clonada por ElevenLabs en la nube. ¿Puedes distinguirlas?

Qué hace

Clonación de voz desde una referencia corta — suelta unos segundos de audio y clona la voz localmente.
Generación de diálogos multi-hablante — escribe una escena con varios hablantes y sintetízalos todos en una sola pasada.
Funciona completamente en tu Mac — VoxCPM2 vía MLX, DeepFilterNet3 para supresión de ruido, sin red.
Open source bajo Apache 2.0 — haz fork, embebe, construye encima.

Requisitos

macOS 15+ (Apple Silicon), Windows 10+ (x64) o Linux (x64)
Apple Silicon en Mac; cualquier CPU de 64 bits moderna en Windows/Linux
Mínimo 8 GB de RAM (16 GB recomendado)
~3–5 GB de disco para los modelos de voz (descargados en el primer arranque)

Instalar

Descarga el build para tu plataforma desde GitHub Releases — macOS .dmg, Windows .msi/.exe o Linux .deb/.AppImage — y lánzalo:

↓ Descargar lo último Todas las releases

Los builds no están firmados: en macOS ábrelo con clic derecho → Abrir (o Ajustes del Sistema → Privacidad y Seguridad → Abrir igualmente); en Windows elige Más información → Ejecutar de todos modos en SmartScreen. El primer arranque descarga el modelo de voz VoxCPM2 (~2.75 GB en macOS, ~4.6 GB en Windows/Linux) y lo guarda en caché; los siguientes reutilizan la caché.

¿Prefieres la CLI?

El mismo pipeline de clonación de voz viene en la CLI speech: brew install speech, luego speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts o pre-renderizado en lote. Consulta la guía de clonación de voz para el flujo completo.

Estado

Speech Studio está en preview activo (v0.0.4), con instaladores para macOS, Windows, and Linux — macOS clona vía MLX, Windows y Linux vía el motor LiteRT VoxCPM2 de speech-core. El repositorio fuente github.com/soniqo/speech-studio sigue la app GUI; márcalo con star/watch para recibir notificaciones de releases.

Sobre qué está construido

Speech Studio es una GUI ligera sobre speech-swift, la librería Swift open source que provee todos los modelos usados en la demo:

VoxCPM2 — el modelo de clonación de voz (zero-shot, referencia corta)
DeepFilterNet3 — suprime el ruido de la referencia y la salida clonada
Qwen3-ASR — alinea la voz con el texto (usada en el pipeline de construcción de la prueba ciega)
Alineación Forzada — marcas de tiempo a nivel de palabra para la edición
Clonación de Voz guía — visión completa del pipeline

Hoja de ruta

Hoy: macOS, Windows, and Linux.
Siguiente: builds firmados y notarizados (sin prompts de Gatekeeper/SmartScreen).
Después: superficie de edición más profunda, soporte de plugins para intercambiar modelos de clonación.

Feedback

Abre un issue en github.com/soniqo/speech-studio/issues — todos se leen.