Speech Studio

App Mac open source para clonagem de voz local e geração de diálogos com vários falantes. Solte uma amostra de voz, clone-a, escreva uma cena e sintetize — tudo no seu laptop. Sem chaves de API, sem nuvem, sem cobrança por caractere.

Teste cego de 30 segundos: uma voz real, a mesma voz clonada localmente pelo Speech Studio num MacBook, e a mesma voz clonada pelo ElevenLabs na nuvem. Consegue distinguir?

O que faz

Requisitos

Instalar

Baixe o build para a sua plataforma em GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — e abra-o:

Os builds não são assinados: no macOS abra com clique-direito → Abrir (ou Ajustes do Sistema → Privacidade e Segurança → Abrir mesmo assim); no Windows escolha Mais informações → Executar assim mesmo no SmartScreen. O primeiro lançamento baixa o modelo de voz VoxCPM2 (~2.75 GB no macOS, ~4.6 GB no Windows/Linux) e o armazena em cache; os próximos reusam o cache.

Prefere a CLI?

O mesmo pipeline de clonagem vem na CLI speech: brew install speech, depois speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts ou pré-renderização em lote. Veja o guia de clonagem de voz para o fluxo completo.

Status

O Speech Studio está em preview ativo (v0.0.4), com instaladores para macOS, Windows, and Linux — o macOS clona via MLX, o Windows e o Linux via o motor LiteRT VoxCPM2 do speech-core. O repositório fonte github.com/soniqo/speech-studio acompanha o app GUI; dê star/watch para receber notificações de releases.

Em que é construído

O Speech Studio é uma GUI fina sobre o speech-swift, a biblioteca Swift open source que entrega todos os modelos usados na demo:

Roadmap

Feedback

Abra um issue em github.com/soniqo/speech-studio/issues — cada um é lido.