Empezar
speech-swift proporciona procesamiento de voz con IA en el dispositivo para macOS e iOS sobre Apple Silicon. Los modelos se ejecutan localmente usando MLX (Metal GPU) y CoreML (Neural Engine).
Requisitos
- macOS 15+ (Sequoia o posterior)
- Apple Silicon (series M1, M2, M3, M4)
- Xcode 16+ / Swift 6.0+
- 8 GB de RAM mínimo (16 GB recomendado para modelos más grandes)
Instalación
Homebrew (CLI)
La forma más rápida de probar speech-swift en macOS. Instala tanto la CLI speech como el servidor HTTP/WebSocket speech-server (endpoint /v1/realtime compatible con OpenAI). Requiere Homebrew ARM nativo (/opt/homebrew).
brew install speech
Tras la instalación, ambos binarios están en tu PATH:
speech transcribe recording.wav
speech speak "Hello, world!" --output hello.wav
speech-server --port 8080 # servidor HTTP / WebSocket local
Swift Package Manager
Añade speech-swift a las dependencias de tu Package.swift:
dependencies: [
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")
]
Luego añade los módulos que necesites a tu target:
.target(
name: "MyApp",
dependencies: [
.product(name: "Qwen3ASR", package: "speech-swift"),
.product(name: "Qwen3TTS", package: "speech-swift"),
.product(name: "SpeechVAD", package: "speech-swift"),
// ... add any modules you need
]
)
Módulos disponibles
| Módulo | Descripción |
|---|---|
Qwen3ASR | Voz a texto (Qwen3-ASR) |
ParakeetASR | Voz a texto (Parakeet TDT, CoreML) |
Qwen3TTS | Texto a voz (Qwen3-TTS) |
CosyVoiceTTS | Texto a voz (CosyVoice3, multilingüe) |
KokoroTTS | Texto a voz (Kokoro-82M, CoreML, listo para iOS) |
Qwen3Chat | Chat LLM en el dispositivo (Qwen3.5-0.8B, MLX + CoreML) |
PersonaPlex | Voz a voz (PersonaPlex 7B) |
SpeechVAD | VAD (Silero + Pyannote), diarización, embeddings de hablante |
SpeechEnhancement | Supresión de ruido (DeepFilterNet3, CoreML) |
AudioCommon | Protocolos compartidos, E/S de audio, descargador de HuggingFace |
Compilar desde el código fuente
Clona el repositorio y compila:
git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build
make build compila la librería de shaders MLX Metal automáticamente. Sin ella, la inferencia en GPU se ejecuta ~5x más lenta debido a la compilación JIT de shaders.
Inicio rápido: transcribir audio
CLI
# Transcribe un archivo WAV
.build/release/speech transcribe recording.wav
API de Swift
import Qwen3ASR
let model = try await Qwen3ASRModel.fromPretrained()
// audioSamples: [Float] PCM at 16 kHz (e.g. decoded from a WAV)
let text = model.transcribe(audio: audioSamples, sampleRate: 16000)
print(text)
Los modelos se descargan automáticamente desde HuggingFace en el primer uso y se almacenan en ~/Library/Caches/qwen3-speech/.
Inicio rápido: texto a voz
CLI
# Generar voz
.build/release/speech speak "Hello, world!" --output hello.wav
API de Swift
import Qwen3TTS
import AudioCommon
let model = try await Qwen3TTSModel.fromPretrained()
let audio = model.synthesize(text: "Hello, world!", language: "english")
try WAVWriter.write(samples: audio, sampleRate: 24000, to: URL(filePath: "hello.wav"))
Descargas de modelos
Todos los modelos se descargan desde HuggingFace en el primer uso. Tamaños aproximados:
| Modelo | Tamaño | Uso de RAM |
|---|---|---|
| Qwen3-ASR 0.6B (4-bit MLX) | 680 MB | ~1.0 GB peak |
| Qwen3-ASR 0.6B (8-bit MLX) | 1.0 GB | ~1.3 GB peak |
| Qwen3-ASR 0.6B (CoreML INT8) | 180 MB | ~1.4 GB peak |
| Qwen3-ASR 1.7B (4-bit MLX) | 2.1 GB | ~3 GB peak |
| Qwen3-ASR 1.7B (8-bit MLX) | 3.2 GB | ~2.7 GB peak |
| Parakeet-TDT v3 (CoreML INT8) | 500 MB | ~900 MB peak |
| Omnilingual CTC 300M (4-bit MLX) | 193 MB | ~400 MB peak |
| Omnilingual CTC 300M (CoreML INT8) | 312 MB | ~550 MB peak |
| Qwen3-TTS 0.6B (4-bit) | 1.7 GB | ~2 GB pico |
| Qwen3-TTS 1.7B (4-bit) | 3.2 GB | ~4 GB pico |
| CosyVoice3 (4-bit LLM) | 1.2 GB | ~1.5 GB pico |
| Kokoro-82M (CoreML INT8) | 89 MB | ~200 MB pico |
| Qwen3.5-Chat 0.8B (INT4 MLX) | 418 MB | ~700 MB pico |
| Qwen3.5-Chat 0.8B (INT8 CoreML) | 981 MB | ~1.2 GB pico |
| PersonaPlex 7B (8-bit) recomendado | 9.1 GB | ~11 GB pico |
| PersonaPlex 7B (4-bit) | 4.9 GB | ~6.5 GB pico |
| Pyannote VAD | 5.7 MB | ~20 MB pico |
| Silero VAD v5 | 1.2 MB | ~5 MB pico |
| WeSpeaker ResNet34 | 25 MB | ~50 MB pico |
| DeepFilterNet3 (FP16) | 4.2 MB | ~10 MB pico |
Próximos pasos
- Referencia de CLI — todos los comandos y opciones disponibles
- Guía de Qwen3-ASR — documentación detallada de voz a texto
- Guía de Qwen3-TTS — documentación detallada de texto a voz
- API y protocolos — protocolos y tipos compartidos