Questions fréquentes

speech-swift fonctionne-t-il sur iOS ?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 et WeSpeaker s'exécutent tous sur iOS 18+ via CoreML sur le Neural Engine. Les modèles basés sur MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) nécessitent macOS 15+ sur Apple Silicon.

Nécessite-t-il une connexion internet ?

Uniquement pour le téléchargement initial du modèle depuis HuggingFace (automatique, mis en cache dans ~/Library/Caches/qwen3-speech/). Ensuite, toute l'inférence s'exécute entièrement hors ligne, sans accès réseau. Aucune API cloud, aucune clé d'API nécessaire.

Comment speech-swift se compare-t-il à Whisper ?

Qwen3-ASR-0.6B atteint un RTF de 0.012 sur M5 Pro — ~7× plus rapide que WhisperKit Large-v3 Turbo (RTF 0.084) et 40% plus rapide que Whisper-large-v3 via whisper.cpp (RTF 0.10) — avec une précision comparable dans 52 langues. speech-swift fournit une API Swift native async/await, tandis que whisper.cpp nécessite un pont C++.

Consultez les tableaux de comparaison complets pour les benchmarks ASR et TTS face à whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer et aux API cloud.

Quelles puces Apple Silicon sont prises en charge ?

Toutes les puces de la série M : M1, M2, M3, M4 et leurs variantes Pro/Max/Ultra. Nécessite macOS 15+ (Sequoia) ou iOS 18+.

Pourquoi macOS 15 / iOS 18 est-il requis ?

Le minimum vient de MLState —— l'API d'état persistant ANE d'Apple, introduite dans macOS 15 et iOS 18. Les pipelines CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) utilisent MLState pour garder les caches KV résidents sur le Neural Engine entre les pas de token, au lieu de les transférer à chaque pas. Cela a réduit la latence CoreML par token de 30–50 % par rapport à l'approche stateless précédente.

Puis-je l'utiliser dans une application commerciale ?

Oui. speech-swift est sous licence Apache 2.0. Les poids des modèles sous-jacents ont leurs propres licences — consultez la page HuggingFace de chaque modèle pour plus de détails.

Combien de mémoire nécessite-t-il ?

De ~3 Mo (Silero VAD) à ~6,5 Go (PersonaPlex 7B). Utilisation typique :

Puis-je exécuter plusieurs modèles simultanément ?

Oui. Utilisez les modèles CoreML sur le Neural Engine en parallèle des modèles MLX sur le GPU pour éviter la contention — par exemple, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Existe-t-il une API REST ?

Oui. Le binaire speech-server expose tous les modèles via des endpoints HTTP REST et WebSocket, y compris un WebSocket compatible avec l'OpenAI Realtime API sur /v1/realtime. Voir la Référence CLI pour les commandes du serveur.

Comment l'installer ?

Homebrew :

brew install speech

Installe à la fois la CLI speech et le serveur HTTP/WebSocket speech-server dans votre PATH.

Swift Package Manager :

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Consultez le guide Premiers pas pour les instructions complètes.

Quels modèles de parole sont disponibles ?

Reconnaissance vocale : Qwen3-ASR (52 langues, MLX) et Parakeet TDT (25 langues, CoreML).

Synthèse vocale : Qwen3-TTS (streaming, 10 langues), CosyVoice3 (clonage vocal, 9 langues) et Kokoro-82M (compatible iOS, 50 voix, 10 langues).

Parole-à-parole : PersonaPlex 7B (dialogue full-duplex, 18 préréglages de voix).

Analyse audio : Silero + Pyannote VAD, diarisation de locuteurs (Pyannote + Sortformer), empreintes de locuteur WeSpeaker et suppression de bruit DeepFilterNet3.

LLM : Qwen3.5-0.8B Chat (embarqué, MLX INT4 + CoreML INT8, tokens en streaming).

Soniqo fonctionne-t-il sur Android ?

Oui. Le SDK speech-android fournit une API Kotlin avec ONNX Runtime et accélération matérielle NNAPI. Supporte arm64-v8a sur Android 8+ (API 26). Les modèles se téléchargent automatiquement depuis HuggingFace à la première utilisation (~1,2 Go). Voir Premiers pas — Android pour les instructions de configuration.

Soniqo fonctionne-t-il sur Linux ?

Oui. Le projet speech-core inclut une API C pour Linux embarqué et automobile (Yocto, edge devices) à examples/linux. Les modèles s'exécutent via les backends ONNX Runtime ou LiteRT, avec une accélération QNN optionnelle pour le matériel Qualcomm. Supporte ARM64 et x86_64. Voir Premiers pas — Linux pour les instructions de configuration.

Soniqo fonctionne-t-il sur Windows ?

Oui. Speech Core se compile sur Windows x86_64 avec les deux backends d'inférence — ONNX Runtime et LiteRT — couvrant la reconnaissance vocale en streaming (Nemotron, Parakeet), la détection d'activité vocale, la diarisation de locuteurs et la synthèse vocale VoxCPM2. Speech Studio propose aussi un installeur Windows pour le clonage vocal local.

Puis-je partager les modèles entre plateformes ?

Les modèles principaux (Parakeet, Kokoro, Silero, DeepFilter) utilisent le format ONNX sur Android, Linux et Windows. Apple utilise les formats CoreML/MLX. Mêmes poids sous-jacents, formats d'export différents optimisés pour l'accélération matérielle de chaque plateforme.