Speech Studio

开源 Mac 应用,本地进行语音克隆和多人对话合成。投入一段参考音频、克隆音色、编写台词、合成 — 全部在你的笔记本上。无需 API 密钥、无云端、无按字符计费。

30 秒盲测:真实声音、由 Speech Studio 在 MacBook 上本地克隆的同一声音,以及由 ElevenLabs 在云端克隆的同一声音。你能分辨出哪个是哪个吗?

功能介绍

运行要求

安装

从 GitHub Releases 下载适合你平台的版本 — macOS .dmg、Windows .msi/.exe 或 Linux .deb/.AppImage — 然后启动:

这些版本均未签名:在 macOS 上通过右键 → 打开(或 系统设置 → 隐私与安全性 → 仍要打开)启动;在 Windows 上于 SmartScreen 中选择 更多信息 → 仍要运行。首次启动会下载 VoxCPM2 语音模型(macOS 约 2.75 GB,Windows/Linux 约 4.6 GB)并缓存;后续启动会复用缓存。

更喜欢命令行?

相同的语音克隆流水线也包含在 speech CLI 中:brew install speech,然后 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 适合脚本化或批量预渲染。完整流程请参阅语音克隆指南

状态

Speech Studio 处于活跃预览阶段(v0.0.4),提供 macOS、Windows 和 Linux 的安装程序 — macOS 通过 MLX 克隆,Windows 和 Linux 通过 speech-core 的 LiteRT VoxCPM2 引擎克隆。源码仓库 github.com/soniqo/speech-studio 跟踪此 GUI 应用;点 star/watch 即可接收发布通知。

底层技术

Speech Studio 是基于 speech-swift 的轻量 GUI,该开源 Swift 库提供了 demo 中使用的全部模型:

路线图

反馈

github.com/soniqo/speech-studio/issues 提交 issue — 每一条都会被认真阅读。