はじめに
speech-swiftは、Apple Silicon上のmacOSおよびiOS向けにオンデバイスAI音声処理を提供します。モデルはMLX(Metal GPU)とCoreML(Neural Engine)を使用してローカルで動作します。
動作要件
- macOS 15+(Sequoia以降)
- Apple Silicon(M1、M2、M3、M4シリーズ)
- Xcode 16+ / Swift 6.0+
- 最低8 GB RAM(大きなモデルには16 GB推奨)
インストール
Homebrew (CLI)
macOS で speech-swift を試す最速の方法。speech CLI と HTTP/WebSocket サーバー speech-server(OpenAI 互換の /v1/realtime エンドポイント)の両方をインストールします。ネイティブ ARM Homebrew(/opt/homebrew)が必要です。
brew install speech
インストール後、両方のバイナリが PATH に追加されます:
speech transcribe recording.wav
speech speak "Hello, world!" --output hello.wav
speech-server --port 8080 # ローカル HTTP / WebSocket サーバー
Swift Package Manager
Package.swiftの依存関係にspeech-swiftを追加します。
dependencies: [
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")
]
次に、必要なモジュールをターゲットに追加します。
.target(
name: "MyApp",
dependencies: [
.product(name: "Qwen3ASR", package: "speech-swift"),
.product(name: "Qwen3TTS", package: "speech-swift"),
.product(name: "SpeechVAD", package: "speech-swift"),
// ... 必要なモジュールを追加
]
)
利用可能なモジュール
| モジュール | 説明 |
|---|---|
Qwen3ASR | 音声認識(Qwen3-ASR) |
ParakeetASR | 音声認識(Parakeet TDT、CoreML) |
Qwen3TTS | 音声合成(Qwen3-TTS) |
CosyVoiceTTS | 音声合成(CosyVoice3、多言語) |
KokoroTTS | 音声合成(Kokoro-82M、CoreML、iOS対応) |
Qwen3Chat | オンデバイスLLMチャット(Qwen3.5-0.8B、MLX + CoreML) |
PersonaPlex | 音声間変換(PersonaPlex 7B) |
SpeechVAD | VAD(Silero + Pyannote)、ダイアライゼーション、話者embedding |
SpeechEnhancement | ノイズ抑制(DeepFilterNet3、CoreML) |
AudioCommon | 共有プロトコル、音声I/O、HuggingFaceダウンローダー |
ソースからビルド
リポジトリをクローンしてビルドします。
git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build
重要
make buildはMLX Metalシェーダーライブラリを自動的にコンパイルします。これがないと、JITシェーダーコンパイルのためGPU推論が約5倍遅くなります。
クイックスタート: 音声の文字起こし
CLI
# WAVファイルを文字起こし
.build/release/speech transcribe recording.wav
Swift API
import Qwen3ASR
let model = try await Qwen3ASRModel.fromPretrained()
// audioSamples: [Float] PCM at 16 kHz (e.g. decoded from a WAV)
let text = model.transcribe(audio: audioSamples, sampleRate: 16000)
print(text)
モデルは初回使用時にHuggingFaceから自動的にダウンロードされ、~/Library/Caches/qwen3-speech/にキャッシュされます。
クイックスタート: 音声合成
CLI
# 音声を生成
.build/release/speech speak "Hello, world!" --output hello.wav
Swift API
import Qwen3TTS
import AudioCommon
let model = try await Qwen3TTSModel.fromPretrained()
let audio = model.synthesize(text: "Hello, world!", language: "english")
try WAVWriter.write(samples: audio, sampleRate: 24000, to: URL(filePath: "hello.wav"))
モデルダウンロード
すべてのモデルは初回使用時にHuggingFaceからダウンロードされます。おおよそのサイズ:
| モデル | サイズ | RAM使用量 |
|---|---|---|
| Qwen3-ASR 0.6B (4-bit MLX) | 680 MB | ~1.0 GB peak |
| Qwen3-ASR 0.6B (8-bit MLX) | 1.0 GB | ~1.3 GB peak |
| Qwen3-ASR 0.6B (CoreML INT8) | 180 MB | ~1.4 GB peak |
| Qwen3-ASR 1.7B (4-bit MLX) | 2.1 GB | ~3 GB peak |
| Qwen3-ASR 1.7B (8-bit MLX) | 3.2 GB | ~2.7 GB peak |
| Parakeet-TDT v3 (CoreML INT8) | 500 MB | ~900 MB peak |
| Omnilingual CTC 300M (4-bit MLX) | 193 MB | ~400 MB peak |
| Omnilingual CTC 300M (CoreML INT8) | 312 MB | ~550 MB peak |
| Qwen3-TTS 0.6B (4-bit) | 1.7 GB | ピーク 約2 GB |
| Qwen3-TTS 1.7B (4-bit) | 3.2 GB | ピーク 約4 GB |
| CosyVoice3 (4-bit LLM) | 1.2 GB | ピーク 約1.5 GB |
| Kokoro-82M (CoreML INT8) | 89 MB | ピーク 約200 MB |
| Qwen3.5-Chat 0.8B (INT4 MLX) | 418 MB | ピーク 約700 MB |
| Qwen3.5-Chat 0.8B (INT8 CoreML) | 981 MB | ピーク 約1.2 GB |
| PersonaPlex 7B (8-bit) 推奨 | 9.1 GB | ピーク 約11 GB |
| PersonaPlex 7B (4-bit) | 4.9 GB | ピーク 約6.5 GB |
| Pyannote VAD | 5.7 MB | ピーク 約20 MB |
| Silero VAD v5 | 1.2 MB | ピーク 約5 MB |
| WeSpeaker ResNet34 | 25 MB | ピーク 約50 MB |
| DeepFilterNet3 (FP16) | 4.2 MB | ピーク 約10 MB |
次のステップ
- CLIリファレンス — 利用可能なすべてのコマンドとオプション
- Qwen3-ASRガイド — 詳細な音声認識ドキュメント
- Qwen3-TTSガイド — 詳細な音声合成ドキュメント
- API と プロトコル — 共有プロトコルと型