Speech Studio

แอป Mac โอเพนซอร์สสำหรับโคลนเสียงและสร้างบทสนทนาหลายผู้พูดในเครื่อง วางตัวอย่างเสียง โคลน เขียนซีน แล้วสังเคราะห์ — ทั้งหมดบนแล็ปท็อปของคุณ ไม่ต้องใช้ API key ไม่ต้องใช้คลาวด์ ไม่คิดค่าใช้จ่ายต่อตัวอักษร

การทดสอบแบบบลายด์ 30 วินาที: เสียงจริง เสียงเดียวกันที่ Speech Studio โคลนในเครื่องบน MacBook และเสียงเดียวกันที่ ElevenLabs โคลนบนคลาวด์ คุณบอกได้ไหมว่าอันไหนคืออันไหน?

ทำอะไรได้

ความต้องการของระบบ

ติดตั้ง

ดาวน์โหลดบิลด์สำหรับแพลตฟอร์มของคุณจาก GitHub Releases — macOS .dmg, Windows .msi/.exe หรือ Linux .deb/.AppImage — แล้วเปิดใช้งาน:

บิลด์เหล่านี้ไม่ได้เซ็นลายเซ็น: บน macOS ให้เปิดด้วยการคลิกขวา → Open (หรือ System Settings → Privacy & Security → Open anyway); บน Windows เลือก More info → Run anyway ใน SmartScreen การเปิดครั้งแรกจะดาวน์โหลดโมเดลเสียงพูด VoxCPM2 (~2.75 GB บน macOS, ~4.6 GB บน Windows/Linux) แล้วแคชไว้ ครั้งต่อๆ ไปจะใช้แคชเดิม

ชอบ CLI มากกว่า?

ไปป์ไลน์โคลนเสียงเดียวกันมาพร้อมใน CLI ของ speech: brew install speech แล้ว speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — เหมาะสำหรับสคริปต์หรือพรีเรนเดอร์เป็นชุด ดูขั้นตอนเต็มได้ที่ คู่มือการโคลนเสียง

สถานะ

Speech Studio อยู่ในช่วง preview (v0.0.4) พร้อมตัวติดตั้งสำหรับ macOS, Windows, and Linux — macOS โคลนผ่าน MLX ส่วน Windows และ Linux ผ่านเอ็นจิน LiteRT VoxCPM2 ของ speech-core รีโป github.com/soniqo/speech-studio ติดตามแอป GUI กด star/watch เพื่อรับการแจ้งเตือนการปล่อยรุ่น

สร้างบนอะไร

Speech Studio เป็น GUI บางๆ บน speech-swift ไลบรารี Swift โอเพนซอร์สที่จัดส่งทุกโมเดลที่ใช้ใน demo:

โรดแมป

ฟีดแบ็ก

เปิด issue ที่ github.com/soniqo/speech-studio/issues — ทุกรายการจะถูกอ่าน