Speech Studio
ローカルで音声クローンとマルチスピーカーダイアログ生成を行うオープンソースの Mac アプリ。サンプル音声をドロップして声をクローンし、シーンを書いて合成 — すべてラップトップ上で。API キー不要、クラウド不要、文字単位の課金もありません。
30 秒のブラインドテスト:実際の声、Speech Studio が MacBook 上でローカルにクローンした同じ声、ElevenLabs がクラウドでクローンした同じ声。どれがどれかわかりますか?
できること
- 短い参照音声から声をクローン — 数秒の音声をドロップして、その声をローカルにクローン。
- マルチスピーカーのダイアログ生成 — 複数の話者を含むシーンを書いて、すべてを一回で合成。
- Mac 上で完全に動作 — MLX 経由で VoxCPM2、ノイズ抑制に DeepFilterNet3、ネットワーク不要。
- Apache 2.0 のオープンソース — フォーク、組み込み、拡張も自由。
動作要件
- macOS 15+(Apple Silicon)、Windows 10+(x64)、または Linux(x64)
- Mac では Apple Silicon、Windows / Linux では最新の 64 ビット CPU
- 8 GB RAM 以上(16 GB 推奨)
- 音声モデル用に約 3–5 GB のディスク容量(初回起動時にダウンロード)
インストール
GitHub Releases からお使いのプラットフォーム向けのビルドをダウンロードします — macOS .dmg、Windows .msi/.exe、または Linux .deb/.AppImage — そして起動します:
これらのビルドは未署名です: macOS では右クリック → 開く(または システム設定 → プライバシーとセキュリティ → このまま開く)から開いてください。Windows では SmartScreen で 詳細情報 → 実行 を選びます。初回起動時に VoxCPM2 音声モデル(macOS では約 2.75 GB、Windows / Linux では約 4.6 GB)がダウンロードされてキャッシュされ、以降の起動ではキャッシュを再利用します。
同じ音声クローンパイプラインは speech CLI にも入っています: brew install speech の後 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — スクリプト化やバッチでの事前レンダーに便利です。完全な流れは音声クローンガイドを参照してください。
Speech Studio はアクティブプレビュー中(v0.0.4)で、macOS, Windows, and Linux 向けのインストーラーを提供しています — macOS は MLX で、Windows と Linux は speech-core の LiteRT VoxCPM2 エンジンでクローンします。ソースリポジトリ github.com/soniqo/speech-studio は GUI アプリを追跡しています。リリースの通知を受けるには star / watch してください。
ベースとなる技術
Speech Studio は speech-swift 上の薄い GUI です。デモで使用されているモデルはすべて、このオープンソースの Swift ライブラリに含まれています:
- VoxCPM2 — 音声クローンモデル(ゼロショット、短い参照音声)
- DeepFilterNet3 — 参照音声とクローン出力のノイズ除去
- Qwen3-ASR — 音声をテキストに整合(デモのブラインドテスト構築パイプラインで使用)
- 強制アラインメント — 編集用の単語レベルのタイムスタンプ
- 音声クローン ガイド — パイプライン全体の概要
ロードマップ
- 今日: macOS, Windows, and Linux。
- 次: 署名済みかつ公証済みのビルド(Gatekeeper/SmartScreen のプロンプトなし)。
- その後: より深い編集 UI、差し替え可能なクローンモデル用のプラグインサポート。
フィードバック
github.com/soniqo/speech-studio/issues で issue を開いてください — すべて目を通します。