オープンソース · Apache 2.0 · 完全オフライン

オンデバイスの音声。
本番プロダクトへ。

話者分離付き文字起こし、ゼロショット音声クローン、長尺音声合成 —— Apple Silicon、Android、Windows、組み込み Linux で動作。クラウド API なし、分単位課金なし、データはデバイスから出ません。

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

視聴

MacBook で動くローカル音声 AI

4 分間のオープンソースライブラリツアー:Nemotron Streaming によるリアルタイム文字起こし、PersonaPlex によるローカル音声対話、VoxCPM2 による 48 kHz の音声クローニング ―― すべてのデモがラップトップ上で動作します。

作れるもの

各グループは Soniqo コンポーネントを組み合わせた複数のサブユースケースをカバーします。音声を投入すれば、対話・文字起こし・合成音声がローカルかつリアルタイムに得られます。

音声優先のインターフェースを構築 —— フルデュプレックスの音声対音声から、ウェイクワードで起動するコンポーザブル・パイプラインまで、すべてローカルで動作。

音声を構造化テキストへ —— ライブ字幕や音声入力向けのリアルタイム・ストリーミング、アーカイブ向けの高精度バッチ、話者分離で各話者に名前を付与。

どんな声でも音声を合成 —— 数秒で声をクローン、何時間ものオーディオブックをナレーション、複数話者ポッドキャストの制作まで、完全オフライン。

すべてのコンポーネント

上記のユースケース・パイプラインはこれらのモデルから構成されます。コンポーネントを選んでアーキテクチャ、CLI、Swift API、ベンチマークをご覧ください。すべて Apple Silicon で動作し、多くは Android と Linux にも対応。

52 langs, RTF 0.06, 4-/8-bit