視聴
MacBook で動くローカル音声 AI
4 分間のオープンソースライブラリツアー:Nemotron Streaming によるリアルタイム文字起こし、PersonaPlex によるローカル音声対話、VoxCPM2 による 48 kHz の音声クローニング ―― すべてのデモがラップトップ上で動作します。
作れるもの
3 つのオンデバイス・ユースケース・グループ。
各グループは Soniqo コンポーネントを組み合わせた複数のサブユースケースをカバーします。音声を投入すれば、対話・文字起こし・合成音声がローカルかつリアルタイムに得られます。
すべてのコンポーネント
20 以上のモデル。1 つのスタック。
上記のユースケース・パイプラインはこれらのモデルから構成されます。コンポーネントを選んでアーキテクチャ、CLI、Swift API、ベンチマークをご覧ください。すべて Apple Silicon で動作し、多くは Android と Linux にも対応。
音声認識
音声合成
CosyVoice 3
9 langs, zero-shot cloning, 4-bit → bf16
MLX
Qwen3-TTS
12 Hz codec LM, faster than real-time
MLX
CoreML
VoxCPM2
48 kHz, 30 langs, voice design + cloning
MLX
LiteRT
Kokoro 82M
50 voices, ~45 ms inference
CoreML
ONNX
VibeVoice
90-min podcasts / audiobooks
MLX
Magpie 357M
9 langs, 5 baked voices, streaming
MLX
Voice Cloning Suite
CosyVoice, Qwen3-TTS ICL, CAM++
MLX
