Speech Studio

App Mac open source para clonación de voz local y generación de diálogos con varios hablantes. Suelta una muestra de voz, clónala, escribe una escena y sintetiza — todo en tu portátil. Sin claves de API, sin nube, sin precio por carácter.

Prueba ciega de 30 segundos: una voz real, la misma voz clonada localmente por Speech Studio en un MacBook, y la misma voz clonada por ElevenLabs en la nube. ¿Puedes distinguirlas?

Qué hace

Requisitos

Instalar

Descarga el build para tu plataforma desde GitHub Releases — macOS .dmg, Windows .msi/.exe o Linux .deb/.AppImage — y lánzalo:

Los builds no están firmados: en macOS ábrelo con clic derecho → Abrir (o Ajustes del Sistema → Privacidad y Seguridad → Abrir igualmente); en Windows elige Más información → Ejecutar de todos modos en SmartScreen. El primer arranque descarga el modelo de voz VoxCPM2 (~2.75 GB en macOS, ~4.6 GB en Windows/Linux) y lo guarda en caché; los siguientes reutilizan la caché.

¿Prefieres la CLI?

El mismo pipeline de clonación de voz viene en la CLI speech: brew install speech, luego speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts o pre-renderizado en lote. Consulta la guía de clonación de voz para el flujo completo.

Estado

Speech Studio está en preview activo (v0.0.4), con instaladores para macOS, Windows, and Linux — macOS clona vía MLX, Windows y Linux vía el motor LiteRT VoxCPM2 de speech-core. El repositorio fuente github.com/soniqo/speech-studio sigue la app GUI; márcalo con star/watch para recibir notificaciones de releases.

Sobre qué está construido

Speech Studio es una GUI ligera sobre speech-swift, la librería Swift open source que provee todos los modelos usados en la demo:

Hoja de ruta

Feedback

Abre un issue en github.com/soniqo/speech-studio/issues — todos se leen.