Speech Studio
로컬에서 음성 복제와 멀티스피커 대화 생성을 수행하는 오픈소스 Mac 앱. 음성 샘플을 드롭하여 복제하고 장면을 작성한 후 합성 — 모두 노트북에서. API 키 없음, 클라우드 없음, 문자당 과금 없음.
30초 블라인드 테스트: 실제 음성, Speech Studio가 MacBook에서 로컬로 복제한 동일한 음성, ElevenLabs가 클라우드에서 복제한 동일한 음성. 어느 것이 어느 것인지 알아맞힐 수 있나요?
주요 기능
- 짧은 참조 클립으로 음성 복제 — 몇 초의 음성을 드롭하면 해당 음성을 로컬에서 복제합니다.
- 멀티스피커 대화 생성 — 여러 화자가 등장하는 장면을 작성하고 한 번에 모두 합성합니다.
- Mac에서 완전히 실행 — MLX를 통한 VoxCPM2, DeepFilterNet3로 노이즈 억제, 네트워크 불필요.
- Apache 2.0 오픈소스 — 포크, 임베드, 기반 빌드 — 자유롭게 활용 가능.
요구 사항
- macOS 15+ (Apple Silicon), Windows 10+ (x64), 또는 Linux (x64)
- Mac에서는 Apple Silicon, Windows/Linux에서는 최신 64비트 CPU
- 최소 8 GB RAM (16 GB 권장)
- 음성 모델용 디스크 약 3–5 GB (첫 실행 시 다운로드)
설치
GitHub Releases에서 사용 중인 플랫폼용 빌드를 다운로드하세요 — macOS .dmg, Windows .msi/.exe, 또는 Linux .deb/.AppImage — 그런 다음 실행하세요:
이 빌드들은 서명되지 않았습니다: macOS에서는 우클릭 → 열기 (또는 시스템 설정 → 개인정보 보호 및 보안 → 강제로 열기)로 여세요. Windows에서는 SmartScreen에서 추가 정보 → 실행을 선택하세요. 첫 실행 시 VoxCPM2 음성 모델(macOS 약 2.75 GB, Windows/Linux 약 4.6 GB)을 다운로드하여 캐시하며, 이후 실행은 캐시를 재사용합니다.
동일한 음성 복제 파이프라인은 speech CLI에도 포함되어 있습니다: brew install speech 그리고 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 스크립트화나 일괄 사전 렌더링에 유용합니다. 전체 흐름은 음성 복제 가이드를 참조하세요.
Speech Studio는 활성 프리뷰 중이며 (v0.0.4), macOS, Windows, and Linux용 설치 프로그램을 제공합니다 — macOS는 MLX로, Windows와 Linux는 speech-core의 LiteRT VoxCPM2 엔진으로 복제합니다. 소스 저장소 github.com/soniqo/speech-studio는 GUI 앱을 추적하므로, 릴리스 알림을 받으려면 star/watch 하세요.
기반 기술
Speech Studio는 데모에 사용된 모든 모델을 제공하는 오픈소스 Swift 라이브러리 speech-swift 위에 얹은 얇은 GUI입니다:
- VoxCPM2 — 음성 복제 모델 (제로샷, 짧은 참조)
- DeepFilterNet3 — 참조 및 복제 출력의 노이즈 제거
- Qwen3-ASR — 음성을 텍스트에 정렬 (데모의 블라인드 테스트 빌드 파이프라인에서 사용)
- 강제 정렬 — 편집을 위한 단어 수준 타임스탬프
- 음성 복제 가이드 — 파이프라인 전체 개요
로드맵
- 오늘: macOS, Windows, and Linux.
- 다음: 서명 및 공증된 빌드 (Gatekeeper/SmartScreen 프롬프트 없음).
- 그 다음: 더 깊은 편집 화면, 교체 가능한 복제 모델용 플러그인 지원.
피드백
github.com/soniqo/speech-studio/issues에 issue를 열어주세요 — 모두 읽고 있습니다.