Начало работы
speech-swift обеспечивает обработку речи ИИ на устройстве для macOS и iOS на Apple Silicon. Модели работают локально через MLX (Metal GPU) и CoreML (Neural Engine).
Требования
- macOS 15+ (Sequoia или новее)
- Apple Silicon (серии M1, M2, M3, M4)
- Xcode 16+ / Swift 6.0+
- Минимум 8 ГБ RAM (16 ГБ рекомендуется для более крупных моделей)
Установка
Homebrew (CLI)
Самый быстрый способ попробовать speech-swift на macOS. Устанавливает одновременно CLI speech и HTTP/WebSocket-сервер speech-server (совместимый с OpenAI эндпоинт /v1/realtime). Требуется нативный ARM-Homebrew (/opt/homebrew).
brew install speech
После установки оба бинарника доступны в вашем PATH:
speech transcribe recording.wav
speech speak "Hello, world!" --output hello.wav
speech-server --port 8080 # локальный HTTP / WebSocket сервер
Swift Package Manager
Добавьте speech-swift в зависимости Package.swift:
dependencies: [
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")
]
Затем добавьте нужные модули в ваш таргет:
.target(
name: "MyApp",
dependencies: [
.product(name: "Qwen3ASR", package: "speech-swift"),
.product(name: "Qwen3TTS", package: "speech-swift"),
.product(name: "SpeechVAD", package: "speech-swift"),
// ... добавьте нужные модули
]
)
Доступные модули
| Модуль | Описание |
|---|---|
Qwen3ASR | Распознавание речи (Qwen3-ASR) |
ParakeetASR | Распознавание речи (Parakeet TDT, CoreML) |
Qwen3TTS | Синтез речи (Qwen3-TTS) |
CosyVoiceTTS | Синтез речи (CosyVoice3, многоязычный) |
KokoroTTS | Синтез речи (Kokoro-82M, CoreML, готов для iOS) |
Qwen3Chat | Локальный LLM-чат (Qwen3.5-0.8B, MLX + CoreML) |
PersonaPlex | Речь в речь (PersonaPlex 7B) |
SpeechVAD | VAD (Silero + Pyannote), диаризация, эмбеддинги спикеров |
SpeechEnhancement | Подавление шума (DeepFilterNet3, CoreML) |
AudioCommon | Общие протоколы, аудио I/O, загрузчик HuggingFace |
Сборка из исходников
Клонируйте репозиторий и соберите:
git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build
make build автоматически компилирует библиотеку Metal-шейдеров MLX. Без неё GPU-инференс работает примерно в 5 раз медленнее из-за JIT-компиляции шейдеров.
Быстрый старт: транскрипция аудио
CLI
# Транскрибировать WAV-файл
.build/release/speech transcribe recording.wav
Swift API
import Qwen3ASR
let model = try await Qwen3ASRModel.fromPretrained()
// audioSamples: [Float] PCM at 16 kHz (e.g. decoded from a WAV)
let text = model.transcribe(audio: audioSamples, sampleRate: 16000)
print(text)
Модели автоматически скачиваются с HuggingFace при первом использовании и кэшируются в ~/Library/Caches/qwen3-speech/.
Быстрый старт: синтез речи
CLI
# Сгенерировать речь
.build/release/speech speak "Hello, world!" --output hello.wav
Swift API
import Qwen3TTS
import AudioCommon
let model = try await Qwen3TTSModel.fromPretrained()
let audio = model.synthesize(text: "Hello, world!", language: "english")
try WAVWriter.write(samples: audio, sampleRate: 24000, to: URL(filePath: "hello.wav"))
Загрузка моделей
Все модели скачиваются с HuggingFace при первом использовании. Примерные размеры:
| Модель | Размер | Использование RAM |
|---|---|---|
| Qwen3-ASR 0.6B (4-bit MLX) | 680 MB | ~1.0 GB peak |
| Qwen3-ASR 0.6B (8-bit MLX) | 1.0 GB | ~1.3 GB peak |
| Qwen3-ASR 0.6B (CoreML INT8) | 180 MB | ~1.4 GB peak |
| Qwen3-ASR 1.7B (4-bit MLX) | 2.1 GB | ~3 GB peak |
| Qwen3-ASR 1.7B (8-bit MLX) | 3.2 GB | ~2.7 GB peak |
| Parakeet-TDT v3 (CoreML INT8) | 500 MB | ~900 MB peak |
| Omnilingual CTC 300M (4-bit MLX) | 193 MB | ~400 MB peak |
| Omnilingual CTC 300M (CoreML INT8) | 312 MB | ~550 MB peak |
| Qwen3-TTS 0.6B (4-bit) | 1.7 ГБ | ~2 ГБ пиковое |
| Qwen3-TTS 1.7B (4-bit) | 3.2 ГБ | ~4 ГБ пиковое |
| CosyVoice3 (4-bit LLM) | 1.2 ГБ | ~1.5 ГБ пиковое |
| Kokoro-82M (CoreML INT8) | 89 МБ | ~200 МБ пиковое |
| Qwen3.5-Chat 0.8B (INT4 MLX) | 418 МБ | ~700 МБ пиковое |
| Qwen3.5-Chat 0.8B (INT8 CoreML) | 981 МБ | ~1.2 ГБ пиковое |
| PersonaPlex 7B (8-bit) рекомендуется | 9.1 ГБ | ~11 ГБ пиковое |
| PersonaPlex 7B (4-bit) | 4.9 ГБ | ~6.5 ГБ пиковое |
| Pyannote VAD | 5.7 МБ | ~20 МБ пиковое |
| Silero VAD v5 | 1.2 МБ | ~5 МБ пиковое |
| WeSpeaker ResNet34 | 25 МБ | ~50 МБ пиковое |
| DeepFilterNet3 (FP16) | 4.2 МБ | ~10 МБ пиковое |
Следующие шаги
- Справочник CLI — все доступные команды и опции
- Руководство Qwen3-ASR — подробная документация по распознаванию речи
- Руководство Qwen3-TTS — подробная документация по синтезу речи
- API и протоколы — общие протоколы и типы