Speech Studio

Ứng dụng Mac mã nguồn mở để nhân bản giọng nói nội bộ và tạo hội thoại nhiều người nói. Thả mẫu giọng, nhân bản, viết kịch bản, tổng hợp — tất cả trên laptop. Không cần API key, không cần đám mây, không tính phí theo ký tự.

Bài kiểm tra mù 30 giây: một giọng thật, cùng giọng đó được nhân bản nội bộ bởi Speech Studio trên MacBook, và cùng giọng được nhân bản bởi ElevenLabs trên đám mây. Bạn có phân biệt được không?

Tính năng

Yêu cầu

Cài đặt

Tải bản dựng cho nền tảng của bạn từ GitHub Releases — macOS .dmg, Windows .msi/.exe, hoặc Linux .deb/.AppImage — rồi mở nó:

Các bản dựng chưa được ký: trên macOS hãy mở bằng cách nhấp chuột phải → Open (hoặc System Settings → Privacy & Security → Open anyway); trên Windows chọn More info → Run anyway trong SmartScreen. Lần khởi chạy đầu tải mô hình giọng nói VoxCPM2 (~2.75 GB trên macOS, ~4.6 GB trên Windows/Linux) và lưu cache; các lần sau dùng lại cache.

Thích CLI hơn?

Pipeline nhân bản tương tự có trong CLI speech: brew install speech, rồi speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — tiện cho script hoặc tiền dựng theo lô. Xem hướng dẫn nhân bản giọng để biết toàn bộ luồng.

Trạng thái

Speech Studio đang trong giai đoạn preview (v0.0.4), với trình cài đặt cho macOS, Windows, and Linux — macOS nhân bản qua MLX, Windows và Linux qua engine LiteRT VoxCPM2 trong speech-core. Repo nguồn github.com/soniqo/speech-studio theo dõi ứng dụng GUI; star/watch để nhận thông báo bản phát hành.

Được xây dựng trên

Speech Studio là GUI mỏng trên speech-swift, thư viện Swift mã nguồn mở cung cấp mọi mô hình dùng trong demo:

Lộ trình

Phản hồi

Mở issue tại github.com/soniqo/speech-studio/issues — mỗi cái đều được đọc.