Question 1

speech-swift fonctionne-t-il sur iOS ?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 et WeSpeaker s'exécutent tous sur iOS 18+ via CoreML sur le Neural Engine. Les modèles basés sur MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) nécessitent macOS 15+ sur Apple Silicon.

Question 2

speech-swift nécessite-t-il une connexion internet ?

Accepted Answer

Uniquement pour le téléchargement initial du modèle depuis HuggingFace. Ensuite, toute l'inférence s'exécute entièrement hors ligne, sans accès réseau. Aucune API cloud, aucune clé d'API nécessaire.

Question 3

Comment speech-swift se compare-t-il à Whisper ?

Accepted Answer

Qwen3-ASR-0.6B atteint un RTF de 0.012 sur M5 Pro — ~7× plus rapide que WhisperKit Large-v3 Turbo (RTF 0.084) et 40% plus rapide que Whisper-large-v3 via whisper.cpp (RTF 0.10) — avec une précision comparable dans 52 langues. speech-swift fournit une API Swift native async/await, tandis que whisper.cpp nécessite un pont C++.

Question 4

Quelles puces Apple Silicon sont prises en charge ?

Accepted Answer

Toutes les puces de la série M : M1, M2, M3, M4 et leurs variantes Pro/Max/Ultra. Nécessite macOS 15+ (Sequoia) ou iOS 18+.

Question 5

Pourquoi macOS 15 / iOS 18 est-il requis ?

Accepted Answer

Le minimum vient de MLState —— l'API d'état persistant ANE d'Apple, introduite dans macOS 15 et iOS 18. Les pipelines CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) utilisent MLState pour garder les caches KV résidents sur le Neural Engine entre les pas de token, au lieu de les transférer à chaque pas. Cela a réduit la latence CoreML par token de 30–50 % par rapport à l'approche stateless précédente.

Question 6

Puis-je utiliser speech-swift dans une application commerciale ?

Accepted Answer

Oui. speech-swift est sous licence Apache 2.0. Les poids des modèles sous-jacents ont leurs propres licences — consultez la page HuggingFace de chaque modèle pour plus de détails.

Question 7

Combien de mémoire speech-swift nécessite-t-il ?

Accepted Answer

De ~3 Mo (Silero VAD) à ~6,5 Go (PersonaPlex 7B). Kokoro TTS utilise ~200 Mo, Qwen3-ASR ~1,3 Go peak, Qwen3-TTS ~2 Go. Plusieurs modèles peuvent s'exécuter simultanément en utilisant CoreML sur le Neural Engine en parallèle de MLX sur le GPU.

Question 8

Puis-je exécuter plusieurs modèles simultanément ?

Accepted Answer

Oui. Utilisez les modèles CoreML sur le Neural Engine en parallèle des modèles MLX sur le GPU pour éviter la contention — par exemple, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

Existe-t-il une API REST ?

Accepted Answer

Oui. Le binaire speech-server expose tous les modèles via des endpoints HTTP REST et WebSocket, y compris un WebSocket compatible avec l'OpenAI Realtime API sur /v1/realtime.

Question 10

Comment installer speech-swift ?

Accepted Answer

Via Homebrew : brew install speech. Ou ajoutez-le comme dépendance Swift Package Manager : .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Quels modèles de parole sont disponibles ?

Accepted Answer

Reconnaissance vocale : Qwen3-ASR (52 langues) et Parakeet TDT (25 langues). Synthèse vocale : Qwen3-TTS (streaming, 10 langues), CosyVoice3 (clonage vocal, 9 langues) et Kokoro-82M (compatible iOS, 50 voix). Parole-à-parole : PersonaPlex 7B (full-duplex). Plus : Silero/Pyannote VAD, diarisation de locuteurs (Pyannote + Sortformer), empreintes de locuteur WeSpeaker et suppression de bruit DeepFilterNet3.

Question 12

Soniqo fonctionne-t-il sur Android ?

Accepted Answer

Oui. Le SDK speech-android fournit une API Kotlin avec accélération ONNX Runtime et NNAPI. Supporte arm64-v8a sur Android 8+ (API 26). Les modèles se téléchargent automatiquement depuis HuggingFace à la première utilisation.

Question 13

Soniqo fonctionne-t-il sur Linux ?

Accepted Answer

Oui. Le projet speech-core inclut une API C pour Linux embarqué et automobile à examples/linux. Les modèles s'exécutent via les backends ONNX Runtime ou LiteRT, avec une accélération QNN optionnelle pour le matériel Qualcomm. Supporte ARM64 et x86_64.

Question 14

Soniqo fonctionne-t-il sur Windows ?

Accepted Answer

Oui. Speech Core se compile sur Windows x86_64 avec les deux backends d'inférence — ONNX Runtime et LiteRT — couvrant la reconnaissance vocale en streaming, la détection d'activité vocale, la diarisation de locuteurs et la synthèse vocale VoxCPM2. Speech Studio propose aussi un installeur Windows pour le clonage vocal local.

Question 15

Puis-je partager les modèles entre plateformes ?

Accepted Answer

Les modèles principaux (Parakeet, Kokoro, Silero, DeepFilter) utilisent le format ONNX sur Android, Linux et Windows. Apple utilise les formats CoreML/MLX. Mêmes poids sous-jacents, formats d'export différents.

Questions fréquentes