Speech Studio
开源 Mac 应用,本地进行语音克隆和多人对话合成。投入一段参考音频、克隆音色、编写台词、合成 — 全部在你的笔记本上。无需 API 密钥、无云端、无按字符计费。
30 秒盲测:真实声音、由 Speech Studio 在 MacBook 上本地克隆的同一声音,以及由 ElevenLabs 在云端克隆的同一声音。你能分辨出哪个是哪个吗?
功能介绍
- 从短参考片段克隆语音 — 投入几秒的语音,即可在本地克隆该音色。
- 多人对话合成 — 编写包含多个说话人的场景,一次合成所有角色。
- 完全在 Mac 上运行 — 通过 MLX 运行 VoxCPM2,DeepFilterNet3 进行降噪,无需联网。
- Apache 2.0 开源 — 你可以 fork、嵌入、二次开发。
运行要求
- macOS 15+(Apple Silicon)、Windows 10+(x64)或 Linux(x64)
- Mac 上需 Apple Silicon;Windows/Linux 上任意现代 64 位 CPU
- 至少 8 GB 内存(推荐 16 GB)
- 约 3–5 GB 磁盘空间用于语音模型(首次运行时下载)
安装
从 GitHub Releases 下载适合你平台的版本 — macOS .dmg、Windows .msi/.exe 或 Linux .deb/.AppImage — 然后启动:
这些版本均未签名:在 macOS 上通过右键 → 打开(或 系统设置 → 隐私与安全性 → 仍要打开)启动;在 Windows 上于 SmartScreen 中选择 更多信息 → 仍要运行。首次启动会下载 VoxCPM2 语音模型(macOS 约 2.75 GB,Windows/Linux 约 4.6 GB)并缓存;后续启动会复用缓存。
相同的语音克隆流水线也包含在 speech CLI 中:brew install speech,然后 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 适合脚本化或批量预渲染。完整流程请参阅语音克隆指南。
Speech Studio 处于活跃预览阶段(v0.0.4),提供 macOS、Windows 和 Linux 的安装程序 — macOS 通过 MLX 克隆,Windows 和 Linux 通过 speech-core 的 LiteRT VoxCPM2 引擎克隆。源码仓库 github.com/soniqo/speech-studio 跟踪此 GUI 应用;点 star/watch 即可接收发布通知。
底层技术
Speech Studio 是基于 speech-swift 的轻量 GUI,该开源 Swift 库提供了 demo 中使用的全部模型:
- VoxCPM2 — 语音克隆模型(零样本,短参考片段)
- DeepFilterNet3 — 为参考音频和克隆输出降噪
- Qwen3-ASR — 将语音对齐到文本(用于 demo 的盲测构建流水线)
- 强制对齐 — 单词级时间戳,便于编辑
- 语音克隆 指南 — 完整流水线概览
路线图
- 今天: macOS、Windows 和 Linux。
- 下一步: 签名并经过公证的版本(无 Gatekeeper/SmartScreen 提示)。
- 之后: 更深入的编辑界面,可插拔克隆模型的插件支持。
反馈
在 github.com/soniqo/speech-studio/issues 提交 issue — 每一条都会被认真阅读。