Speech Studio
Ứng dụng Mac mã nguồn mở để nhân bản giọng nói nội bộ và tạo hội thoại nhiều người nói. Thả mẫu giọng, nhân bản, viết kịch bản, tổng hợp — tất cả trên laptop. Không cần API key, không cần đám mây, không tính phí theo ký tự.
Bài kiểm tra mù 30 giây: một giọng thật, cùng giọng đó được nhân bản nội bộ bởi Speech Studio trên MacBook, và cùng giọng được nhân bản bởi ElevenLabs trên đám mây. Bạn có phân biệt được không?
Tính năng
- Nhân bản giọng từ một đoạn tham chiếu ngắn — thả vài giây giọng nói, nhân bản giọng đó nội bộ.
- Tạo hội thoại nhiều người nói — viết một cảnh có nhiều người nói, tổng hợp tất cả trong một lần.
- Chạy hoàn toàn trên Mac của bạn — VoxCPM2 qua MLX, DeepFilterNet3 để khử nhiễu, không cần mạng.
- Mã nguồn mở theo Apache 2.0 — fork, nhúng, xây dựng trên đó.
Yêu cầu
- macOS 15+ (Apple Silicon), Windows 10+ (x64) hoặc Linux (x64)
- Apple Silicon trên Mac; bất kỳ CPU 64-bit hiện đại nào trên Windows/Linux
- Tối thiểu 8 GB RAM (khuyến nghị 16 GB)
- ~3–5 GB ổ đĩa cho các mô hình giọng nói (tải xuống ở lần chạy đầu)
Cài đặt
Tải bản dựng cho nền tảng của bạn từ GitHub Releases — macOS .dmg, Windows .msi/.exe, hoặc Linux .deb/.AppImage — rồi mở nó:
Các bản dựng chưa được ký: trên macOS hãy mở bằng cách nhấp chuột phải → Open (hoặc System Settings → Privacy & Security → Open anyway); trên Windows chọn More info → Run anyway trong SmartScreen. Lần khởi chạy đầu tải mô hình giọng nói VoxCPM2 (~2.75 GB trên macOS, ~4.6 GB trên Windows/Linux) và lưu cache; các lần sau dùng lại cache.
Pipeline nhân bản tương tự có trong CLI speech: brew install speech, rồi speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — tiện cho script hoặc tiền dựng theo lô. Xem hướng dẫn nhân bản giọng để biết toàn bộ luồng.
Speech Studio đang trong giai đoạn preview (v0.0.4), với trình cài đặt cho macOS, Windows, and Linux — macOS nhân bản qua MLX, Windows và Linux qua engine LiteRT VoxCPM2 trong speech-core. Repo nguồn github.com/soniqo/speech-studio theo dõi ứng dụng GUI; star/watch để nhận thông báo bản phát hành.
Được xây dựng trên
Speech Studio là GUI mỏng trên speech-swift, thư viện Swift mã nguồn mở cung cấp mọi mô hình dùng trong demo:
- VoxCPM2 — mô hình nhân bản giọng (zero-shot, tham chiếu ngắn)
- DeepFilterNet3 — khử nhiễu cho mẫu tham chiếu và đầu ra nhân bản
- Qwen3-ASR — căn chỉnh giọng nói với văn bản (dùng trong pipeline xây dựng bài kiểm tra mù của demo)
- Forced Alignment — mốc thời gian theo từng từ phục vụ chỉnh sửa
- Nhân bản giọng hướng dẫn — tổng quan đầy đủ về pipeline
Lộ trình
- Hôm nay: macOS, Windows, and Linux.
- Tiếp theo: bản dựng đã ký & công chứng (không có lời nhắc Gatekeeper/SmartScreen).
- Sau đó: giao diện chỉnh sửa sâu hơn, hỗ trợ plugin để thay đổi mô hình nhân bản.
Phản hồi
Mở issue tại github.com/soniqo/speech-studio/issues — mỗi cái đều được đọc.