Speech Studio
App Mac open source para clonagem de voz local e geração de diálogos com vários falantes. Solte uma amostra de voz, clone-a, escreva uma cena e sintetize — tudo no seu laptop. Sem chaves de API, sem nuvem, sem cobrança por caractere.
Teste cego de 30 segundos: uma voz real, a mesma voz clonada localmente pelo Speech Studio num MacBook, e a mesma voz clonada pelo ElevenLabs na nuvem. Consegue distinguir?
O que faz
- Clonagem de voz a partir de uma referência curta — solte alguns segundos de fala e clone a voz localmente.
- Geração de diálogos multi-falante — escreva uma cena com vários falantes e sintetize tudo numa única passada.
- Roda totalmente no seu Mac — VoxCPM2 via MLX, DeepFilterNet3 para supressão de ruído, sem rede.
- Open source sob Apache 2.0 — faça fork, incorpore, construa em cima.
Requisitos
- macOS 15+ (Apple Silicon), Windows 10+ (x64) ou Linux (x64)
- Apple Silicon no Mac; qualquer CPU de 64 bits moderna no Windows/Linux
- Mínimo 8 GB de RAM (16 GB recomendado)
- ~3–5 GB de disco para os modelos de voz (baixados no primeiro uso)
Instalar
Baixe o build para a sua plataforma em GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — e abra-o:
Os builds não são assinados: no macOS abra com clique-direito → Abrir (ou Ajustes do Sistema → Privacidade e Segurança → Abrir mesmo assim); no Windows escolha Mais informações → Executar assim mesmo no SmartScreen. O primeiro lançamento baixa o modelo de voz VoxCPM2 (~2.75 GB no macOS, ~4.6 GB no Windows/Linux) e o armazena em cache; os próximos reusam o cache.
O mesmo pipeline de clonagem vem na CLI speech: brew install speech, depois speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts ou pré-renderização em lote. Veja o guia de clonagem de voz para o fluxo completo.
O Speech Studio está em preview ativo (v0.0.4), com instaladores para macOS, Windows, and Linux — o macOS clona via MLX, o Windows e o Linux via o motor LiteRT VoxCPM2 do speech-core. O repositório fonte github.com/soniqo/speech-studio acompanha o app GUI; dê star/watch para receber notificações de releases.
Em que é construído
O Speech Studio é uma GUI fina sobre o speech-swift, a biblioteca Swift open source que entrega todos os modelos usados na demo:
- VoxCPM2 — o modelo de clonagem de voz (zero-shot, referência curta)
- DeepFilterNet3 — remove ruído da referência e da saída clonada
- Qwen3-ASR — alinha fala ao texto (usado no pipeline de build do teste cego)
- Alinhamento Forçado — timestamps em nível de palavra para edição
- Clonagem de Voz guia — visão completa do pipeline
Roadmap
- Hoje: macOS, Windows, and Linux.
- Próximo: builds assinados e notarizados (sem prompts de Gatekeeper/SmartScreen).
- Depois disso: superfície de edição mais profunda, suporte a plugins para trocar modelos de clonagem.
Feedback
Abra um issue em github.com/soniqo/speech-studio/issues — cada um é lido.