Speech Studio
แอป Mac โอเพนซอร์สสำหรับโคลนเสียงและสร้างบทสนทนาหลายผู้พูดในเครื่อง วางตัวอย่างเสียง โคลน เขียนซีน แล้วสังเคราะห์ — ทั้งหมดบนแล็ปท็อปของคุณ ไม่ต้องใช้ API key ไม่ต้องใช้คลาวด์ ไม่คิดค่าใช้จ่ายต่อตัวอักษร
การทดสอบแบบบลายด์ 30 วินาที: เสียงจริง เสียงเดียวกันที่ Speech Studio โคลนในเครื่องบน MacBook และเสียงเดียวกันที่ ElevenLabs โคลนบนคลาวด์ คุณบอกได้ไหมว่าอันไหนคืออันไหน?
ทำอะไรได้
- โคลนเสียงจากตัวอย่างสั้นๆ — วางเสียงพูดไม่กี่วินาที โคลนเสียงนั้นในเครื่อง
- สร้างบทสนทนาหลายผู้พูด — เขียนซีนที่มีผู้พูดหลายคน สังเคราะห์ทั้งหมดในรอบเดียว
- ทำงานบน Mac ของคุณทั้งหมด — VoxCPM2 ผ่าน MLX, DeepFilterNet3 สำหรับลดสัญญาณรบกวน ไม่ต้องใช้เครือข่าย
- โอเพนซอร์สภายใต้ Apache 2.0 — fork, ฝัง, สร้างต่อยอด
ความต้องการของระบบ
- macOS 15+ (Apple Silicon), Windows 10+ (x64) หรือ Linux (x64)
- Apple Silicon บน Mac; CPU 64 บิตรุ่นใหม่ใดก็ได้บน Windows/Linux
- RAM อย่างน้อย 8 GB (แนะนำ 16 GB)
- เนื้อที่ดิสก์ราว 3–5 GB สำหรับโมเดลเสียงพูด (ดาวน์โหลดเมื่อรันครั้งแรก)
ติดตั้ง
ดาวน์โหลดบิลด์สำหรับแพลตฟอร์มของคุณจาก GitHub Releases — macOS .dmg, Windows .msi/.exe หรือ Linux .deb/.AppImage — แล้วเปิดใช้งาน:
บิลด์เหล่านี้ไม่ได้เซ็นลายเซ็น: บน macOS ให้เปิดด้วยการคลิกขวา → Open (หรือ System Settings → Privacy & Security → Open anyway); บน Windows เลือก More info → Run anyway ใน SmartScreen การเปิดครั้งแรกจะดาวน์โหลดโมเดลเสียงพูด VoxCPM2 (~2.75 GB บน macOS, ~4.6 GB บน Windows/Linux) แล้วแคชไว้ ครั้งต่อๆ ไปจะใช้แคชเดิม
ไปป์ไลน์โคลนเสียงเดียวกันมาพร้อมใน CLI ของ speech: brew install speech แล้ว speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — เหมาะสำหรับสคริปต์หรือพรีเรนเดอร์เป็นชุด ดูขั้นตอนเต็มได้ที่ คู่มือการโคลนเสียง
Speech Studio อยู่ในช่วง preview (v0.0.4) พร้อมตัวติดตั้งสำหรับ macOS, Windows, and Linux — macOS โคลนผ่าน MLX ส่วน Windows และ Linux ผ่านเอ็นจิน LiteRT VoxCPM2 ของ speech-core รีโป github.com/soniqo/speech-studio ติดตามแอป GUI กด star/watch เพื่อรับการแจ้งเตือนการปล่อยรุ่น
สร้างบนอะไร
Speech Studio เป็น GUI บางๆ บน speech-swift ไลบรารี Swift โอเพนซอร์สที่จัดส่งทุกโมเดลที่ใช้ใน demo:
- VoxCPM2 — โมเดลโคลนเสียง (zero-shot, อ้างอิงสั้น)
- DeepFilterNet3 — ลดสัญญาณรบกวนทั้งตัวอย่างอ้างอิงและเอาต์พุตที่โคลน
- Qwen3-ASR — จับคู่เสียงกับข้อความ (ใช้ในไปป์ไลน์การทดสอบบลายด์ของ demo)
- Forced Alignment — เวลาประทับระดับคำสำหรับการแก้ไข
- การโคลนเสียง คู่มือ — ภาพรวมไปป์ไลน์ทั้งหมด
โรดแมป
- วันนี้: macOS, Windows, and Linux
- ถัดไป: บิลด์ที่เซ็นลายเซ็น & ผ่านการรับรอง (ไม่มีข้อความแจ้ง Gatekeeper/SmartScreen)
- หลังจากนั้น: พื้นที่แก้ไขที่ลึกขึ้น รองรับปลั๊กอินสำหรับโมเดลโคลนที่สับเปลี่ยนได้
ฟีดแบ็ก
เปิด issue ที่ github.com/soniqo/speech-studio/issues — ทุกรายการจะถูกอ่าน