Speech Studio

ローカルで音声クローンとマルチスピーカーダイアログ生成を行うオープンソースの Mac アプリ。サンプル音声をドロップして声をクローンし、シーンを書いて合成 — すべてラップトップ上で。API キー不要、クラウド不要、文字単位の課金もありません。

github.com/soniqo/speech-studio Apache 2.0 インストール

30 秒のブラインドテスト：実際の声、Speech Studio が MacBook 上でローカルにクローンした同じ声、ElevenLabs がクラウドでクローンした同じ声。どれがどれかわかりますか?

できること

短い参照音声から声をクローン — 数秒の音声をドロップして、その声をローカルにクローン。
マルチスピーカーのダイアログ生成 — 複数の話者を含むシーンを書いて、すべてを一回で合成。
Mac 上で完全に動作 — MLX 経由で VoxCPM2、ノイズ抑制に DeepFilterNet3、ネットワーク不要。
Apache 2.0 のオープンソース — フォーク、組み込み、拡張も自由。

動作要件

macOS 15+（Apple Silicon）、Windows 10+（x64）、または Linux（x64）
Mac では Apple Silicon、Windows / Linux では最新の 64 ビット CPU
8 GB RAM 以上（16 GB 推奨）
音声モデル用に約 3–5 GB のディスク容量（初回起動時にダウンロード）

インストール

GitHub Releases からお使いのプラットフォーム向けのビルドをダウンロードします — macOS .dmg、Windows .msi/.exe、または Linux .deb/.AppImage — そして起動します:

↓ 最新版をダウンロードすべてのリリース

これらのビルドは未署名です: macOS では右クリック → 開く（または システム設定 → プライバシーとセキュリティ → このまま開く）から開いてください。Windows では SmartScreen で 詳細情報 → 実行 を選びます。初回起動時に VoxCPM2 音声モデル（macOS では約 2.75 GB、Windows / Linux では約 4.6 GB）がダウンロードされてキャッシュされ、以降の起動ではキャッシュを再利用します。

CLI 派ですか?

同じ音声クローンパイプラインは speech CLI にも入っています: brew install speech の後 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — スクリプト化やバッチでの事前レンダーに便利です。完全な流れは音声クローンガイドを参照してください。

ステータス

Speech Studio はアクティブプレビュー中（v0.0.4）で、macOS, Windows, and Linux 向けのインストーラーを提供しています — macOS は MLX で、Windows と Linux は speech-core の LiteRT VoxCPM2 エンジンでクローンします。ソースリポジトリ github.com/soniqo/speech-studio は GUI アプリを追跡しています。リリースの通知を受けるには star / watch してください。

ベースとなる技術

Speech Studio は speech-swift 上の薄い GUI です。デモで使用されているモデルはすべて、このオープンソースの Swift ライブラリに含まれています:

VoxCPM2 — 音声クローンモデル（ゼロショット、短い参照音声）
DeepFilterNet3 — 参照音声とクローン出力のノイズ除去
Qwen3-ASR — 音声をテキストに整合（デモのブラインドテスト構築パイプラインで使用）
強制アラインメント — 編集用の単語レベルのタイムスタンプ
音声クローンガイド — パイプライン全体の概要

ロードマップ

今日: macOS, Windows, and Linux。
次: 署名済みかつ公証済みのビルド（Gatekeeper/SmartScreen のプロンプトなし）。
その後: より深い編集 UI、差し替え可能なクローンモデル用のプラグインサポート。

フィードバック

github.com/soniqo/speech-studio/issues で issue を開いてください — すべて目を通します。