Speech Studio

로컬에서 음성 복제와 멀티스피커 대화 생성을 수행하는 오픈소스 Mac 앱. 음성 샘플을 드롭하여 복제하고 장면을 작성한 후 합성 — 모두 노트북에서. API 키 없음, 클라우드 없음, 문자당 과금 없음.

30초 블라인드 테스트: 실제 음성, Speech Studio가 MacBook에서 로컬로 복제한 동일한 음성, ElevenLabs가 클라우드에서 복제한 동일한 음성. 어느 것이 어느 것인지 알아맞힐 수 있나요?

주요 기능

요구 사항

설치

GitHub Releases에서 사용 중인 플랫폼용 빌드를 다운로드하세요 — macOS .dmg, Windows .msi/.exe, 또는 Linux .deb/.AppImage — 그런 다음 실행하세요:

이 빌드들은 서명되지 않았습니다: macOS에서는 우클릭 → 열기 (또는 시스템 설정 → 개인정보 보호 및 보안 → 강제로 열기)로 여세요. Windows에서는 SmartScreen에서 추가 정보 → 실행을 선택하세요. 첫 실행 시 VoxCPM2 음성 모델(macOS 약 2.75 GB, Windows/Linux 약 4.6 GB)을 다운로드하여 캐시하며, 이후 실행은 캐시를 재사용합니다.

CLI를 선호하시나요?

동일한 음성 복제 파이프라인은 speech CLI에도 포함되어 있습니다: brew install speech 그리고 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 스크립트화나 일괄 사전 렌더링에 유용합니다. 전체 흐름은 음성 복제 가이드를 참조하세요.

상태

Speech Studio는 활성 프리뷰 중이며 (v0.0.4), macOS, Windows, and Linux용 설치 프로그램을 제공합니다 — macOS는 MLX로, Windows와 Linux는 speech-core의 LiteRT VoxCPM2 엔진으로 복제합니다. 소스 저장소 github.com/soniqo/speech-studio는 GUI 앱을 추적하므로, 릴리스 알림을 받으려면 star/watch 하세요.

기반 기술

Speech Studio는 데모에 사용된 모든 모델을 제공하는 오픈소스 Swift 라이브러리 speech-swift 위에 얹은 얇은 GUI입니다:

로드맵

피드백

github.com/soniqo/speech-studio/issues에 issue를 열어주세요 — 모두 읽고 있습니다.