Speech Studio

开源 Mac 应用，本地进行语音克隆和多人对话合成。投入一段参考音频、克隆音色、编写台词、合成 — 全部在你的笔记本上。无需 API 密钥、无云端、无按字符计费。

github.com/soniqo/speech-studio Apache 2.0 安装

30 秒盲测：真实声音、由 Speech Studio 在 MacBook 上本地克隆的同一声音，以及由 ElevenLabs 在云端克隆的同一声音。你能分辨出哪个是哪个吗？

功能介绍

从短参考片段克隆语音 — 投入几秒的语音，即可在本地克隆该音色。
多人对话合成 — 编写包含多个说话人的场景，一次合成所有角色。
完全在 Mac 上运行 — 通过 MLX 运行 VoxCPM2，DeepFilterNet3 进行降噪，无需联网。
Apache 2.0 开源 — 你可以 fork、嵌入、二次开发。

运行要求

macOS 15+（Apple Silicon）、Windows 10+（x64）或 Linux（x64）
Mac 上需 Apple Silicon；Windows/Linux 上任意现代 64 位 CPU
至少 8 GB 内存（推荐 16 GB）
约 3–5 GB 磁盘空间用于语音模型（首次运行时下载）

安装

从 GitHub Releases 下载适合你平台的版本 — macOS .dmg、Windows .msi/.exe 或 Linux .deb/.AppImage — 然后启动：

↓ 下载最新版本所有版本

这些版本均未签名：在 macOS 上通过右键 → 打开（或 系统设置 → 隐私与安全性 → 仍要打开）启动；在 Windows 上于 SmartScreen 中选择 更多信息 → 仍要运行。首次启动会下载 VoxCPM2 语音模型（macOS 约 2.75 GB，Windows/Linux 约 4.6 GB）并缓存；后续启动会复用缓存。

更喜欢命令行？

相同的语音克隆流水线也包含在 speech CLI 中：brew install speech，然后 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 适合脚本化或批量预渲染。完整流程请参阅语音克隆指南。

状态

Speech Studio 处于活跃预览阶段（v0.0.4），提供 macOS、Windows 和 Linux 的安装程序 — macOS 通过 MLX 克隆，Windows 和 Linux 通过 speech-core 的 LiteRT VoxCPM2 引擎克隆。源码仓库 github.com/soniqo/speech-studio 跟踪此 GUI 应用；点 star/watch 即可接收发布通知。

底层技术

Speech Studio 是基于 speech-swift 的轻量 GUI，该开源 Swift 库提供了 demo 中使用的全部模型：

VoxCPM2 — 语音克隆模型（零样本，短参考片段）
DeepFilterNet3 — 为参考音频和克隆输出降噪
Qwen3-ASR — 将语音对齐到文本（用于 demo 的盲测构建流水线）
强制对齐 — 单词级时间戳，便于编辑
语音克隆指南 — 完整流水线概览

路线图

今天： macOS、Windows 和 Linux。
下一步： 签名并经过公证的版本（无 Gatekeeper/SmartScreen 提示）。
之后： 更深入的编辑界面，可插拔克隆模型的插件支持。

反馈

在 github.com/soniqo/speech-studio/issues 提交 issue — 每一条都会被认真阅读。