はじめに

Apple Android Linux Windows

speech-swiftは、Apple Silicon上のmacOSおよびiOS向けにオンデバイスAI音声処理を提供します。モデルはMLX（Metal GPU）とCoreML（Neural Engine）を使用してローカルで動作します。

動作要件

macOS 15+（Sequoia以降）
Apple Silicon（M1、M2、M3、M4シリーズ）
Xcode 16+ / Swift 6.0+
最低8 GB RAM（大きなモデルには16 GB推奨）

インストール

Homebrew (CLI)

macOS で speech-swift を試す最速の方法。speech CLI と HTTP/WebSocket サーバー speech-server（OpenAI 互換の /v1/realtime エンドポイント）の両方をインストールします。ネイティブ ARM Homebrew（/opt/homebrew）が必要です。

brew install speech

インストール後、両方のバイナリが PATH に追加されます：

speech transcribe recording.wav
speech speak "Hello, world!" --output hello.wav
speech-server --port 8080            # ローカル HTTP / WebSocket サーバー

Swift Package Manager

Package.swiftの依存関係にspeech-swiftを追加します。

dependencies: [
    .package(url: "https://github.com/soniqo/speech-swift", branch: "main")
]

次に、必要なモジュールをターゲットに追加します。

.target(
    name: "MyApp",
    dependencies: [
        .product(name: "Qwen3ASR", package: "speech-swift"),
        .product(name: "Qwen3TTS", package: "speech-swift"),
        .product(name: "SpeechVAD", package: "speech-swift"),
        // ... 必要なモジュールを追加
    ]
)

利用可能なモジュール

モジュール	説明
`Qwen3ASR`	音声認識（Qwen3-ASR）
`ParakeetASR`	音声認識（Parakeet TDT、CoreML）
`Qwen3TTS`	音声合成（Qwen3-TTS）
`CosyVoiceTTS`	音声合成（CosyVoice3、多言語）
`KokoroTTS`	音声合成（Kokoro-82M、CoreML、iOS対応）
`Qwen3Chat`	オンデバイスLLMチャット（Qwen3.5-0.8B、MLX + CoreML）
`PersonaPlex`	音声間変換（PersonaPlex 7B）
`SpeechVAD`	VAD（Silero + Pyannote）、ダイアライゼーション、話者embedding
`SpeechEnhancement`	ノイズ抑制（DeepFilterNet3、CoreML）
`AudioCommon`	共有プロトコル、音声I/O、HuggingFaceダウンローダー

ソースからビルド

リポジトリをクローンしてビルドします。

git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build

重要

make buildはMLX Metalシェーダーライブラリを自動的にコンパイルします。これがないと、JITシェーダーコンパイルのためGPU推論が約5倍遅くなります。

クイックスタート: 音声の文字起こし

CLI

# WAVファイルを文字起こし
.build/release/speech transcribe recording.wav

Swift API

import Qwen3ASR

let model = try await Qwen3ASRModel.fromPretrained()
// audioSamples: [Float] PCM at 16 kHz (e.g. decoded from a WAV)
let text = model.transcribe(audio: audioSamples, sampleRate: 16000)
print(text)

モデルは初回使用時にHuggingFaceから自動的にダウンロードされ、~/Library/Caches/qwen3-speech/にキャッシュされます。

クイックスタート: 音声合成

CLI

# 音声を生成
.build/release/speech speak "Hello, world!" --output hello.wav

Swift API

import Qwen3TTS
import AudioCommon

let model = try await Qwen3TTSModel.fromPretrained()
let audio = model.synthesize(text: "Hello, world!", language: "english")
try WAVWriter.write(samples: audio, sampleRate: 24000, to: URL(filePath: "hello.wav"))

モデルダウンロード

すべてのモデルは初回使用時にHuggingFaceからダウンロードされます。おおよそのサイズ:

モデル	サイズ	RAM使用量
Qwen3-ASR 0.6B (4-bit MLX)	680 MB	~1.0 GB peak
Qwen3-ASR 0.6B (8-bit MLX)	1.0 GB	~1.3 GB peak
Qwen3-ASR 0.6B (CoreML INT8)	180 MB	~1.4 GB peak
Qwen3-ASR 1.7B (4-bit MLX)	2.1 GB	~3 GB peak
Qwen3-ASR 1.7B (8-bit MLX)	3.2 GB	~2.7 GB peak
Parakeet-TDT v3 (CoreML INT8)	500 MB	~900 MB peak
Omnilingual CTC 300M (4-bit MLX)	193 MB	~400 MB peak
Omnilingual CTC 300M (CoreML INT8)	312 MB	~550 MB peak
Qwen3-TTS 0.6B (4-bit)	1.7 GB	ピーク約2 GB
Qwen3-TTS 1.7B (4-bit)	3.2 GB	ピーク約4 GB
CosyVoice3 (4-bit LLM)	1.2 GB	ピーク約1.5 GB
Kokoro-82M (CoreML INT8)	89 MB	ピーク約200 MB
Qwen3.5-Chat 0.8B (INT4 MLX)	418 MB	ピーク約700 MB
Qwen3.5-Chat 0.8B (INT8 CoreML)	981 MB	ピーク約1.2 GB
PersonaPlex 7B (8-bit) 推奨	9.1 GB	ピーク約11 GB
PersonaPlex 7B (4-bit)	4.9 GB	ピーク約6.5 GB
Pyannote VAD	5.7 MB	ピーク約20 MB
Silero VAD v5	1.2 MB	ピーク約5 MB
WeSpeaker ResNet34	25 MB	ピーク約50 MB
DeepFilterNet3 (FP16)	4.2 MB	ピーク約10 MB

次のステップ

CLIリファレンス — 利用可能なすべてのコマンドとオプション
Qwen3-ASRガイド — 詳細な音声認識ドキュメント
Qwen3-TTSガイド — 詳細な音声合成ドキュメント
API とプロトコル — 共有プロトコルと型