Sıkça sorulan sorular
speech-swift iOS üzerinde çalışıyor mu?
Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 ve WeSpeaker, iOS 18+ üzerinde Neural Engine üstünde CoreML aracılığıyla çalışır. MLX tabanlı modeller (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) Apple Silicon üzerinde macOS 15+ gerektirir.
İnternet bağlantısı gerektiriyor mu?
Yalnızca HuggingFace'ten ilk model indirme için gereklidir (otomatik, ~/Library/Caches/qwen3-speech/ içinde önbelleğe alınır). Sonrasında tüm çıkarım ağ erişimi olmadan tamamen çevrimdışı çalışır. Bulut API'ı yok, API anahtarı gerekmiyor.
speech-swift Whisper ile nasıl karşılaştırılır?
Qwen3-ASR-0.6B, M5 Pro üzerinde RTF 0.012 elde eder — WhisperKit Large-v3 Turbo'dan (RTF 0.084) ~7× daha hızlıdır ve whisper.cpp üzerinden Whisper-large-v3'ten (RTF 0.10) %40 daha hızlıdır — ve 52 dilde benzer doğruluk sunar. speech-swift yerel bir Swift async/await API'ı sağlar, whisper.cpp ise bir C++ köprüsü gerektirir.
whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer ve bulut API'ları ile ASR ve TTS karşılaştırmaları için tam karşılaştırma tablolarına bakın.
Hangi Apple Silicon yongaları destekleniyor?
Tüm M serisi yongalar: M1, M2, M3, M4 ve bunların Pro/Max/Ultra varyantları. macOS 15+ (Sequoia) veya iOS 18+ gerektirir.
Neden macOS 15 / iOS 18 gerektiriyor?
Alt sınır MLState kaynaklıdır — Apple'ın macOS 15 ve iOS 18'de tanıtılan kalıcı ANE durum API'ı. CoreML işlem hatları (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS), KV önbelleklerini her token adımında alıp götürmek yerine token adımları boyunca Neural Engine üzerinde yerleşik tutmak için MLState kullanır. Bu, önceki durumsuz yaklaşıma kıyasla token başına CoreML gecikmesini %30–50 azalttı.
Ticari bir uygulamada kullanabilir miyim?
Evet. speech-swift Apache 2.0 lisansı altında dağıtılır. Altta yatan model ağırlıklarının kendi lisansları vardır — ayrıntılar için her modelin HuggingFace sayfasını kontrol edin.
Ne kadar bellek ihtiyacı duyuyor?
~3 MB (Silero VAD) ile ~6.5 GB (PersonaPlex 7B) arasında. Tipik kullanım:
- Kokoro TTS: ~200 MB (1 bucket)
- Qwen3-ASR 0.6B: ~1.0 GB peak (4-bit MLX)
- Qwen3-TTS 0.6B: ~2 GB
- Qwen3.5-Chat 0.8B: ~700 MB (INT4 MLX) / ~1.2 GB (INT8 CoreML)
- CosyVoice3: ~1.5 GB
- Parakeet TDT: ~400 MB
Aynı anda birden fazla model çalıştırabilir miyim?
Evet. Çakışmayı önlemek için Neural Engine üzerindeki CoreML modellerini GPU üzerindeki MLX modelleriyle birlikte kullanın — örneğin Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).
REST API var mı?
Evet. speech-server ikilisi, /v1/realtime adresindeki OpenAI Realtime API uyumlu bir WebSocket dahil olmak üzere tüm modelleri HTTP REST ve WebSocket uç noktaları üzerinden sunar. Sunucu komutları için CLI Referansı'na bakın.
Nasıl kurarım?
Homebrew:
brew install speechBu, hem speech CLI'ını hem de speech-server HTTP/WebSocket sunucusunu PATH'inize kurar.
Swift Package Manager:
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")Tam talimatlar için Başla kılavuzuna bakın.
Hangi konuşma modelleri mevcut?
Konuşmadan metne: Qwen3-ASR (52 dil, MLX) ve Parakeet TDT (25 dil, CoreML).
Metinden konuşmaya: Qwen3-TTS (akış, 10 dil), CosyVoice3 (ses klonlama, 9 dil) ve Kokoro-82M (iOS'a hazır, 50 ses, 10 dil).
Konuşmadan konuşmaya: PersonaPlex 7B (tam çift yönlü diyalog, 18 ses ön ayarı).
Ses analizi: Silero + Pyannote VAD, konuşmacı ayrıştırması (Pyannote + Sortformer), WeSpeaker konuşmacı gömmeleri ve DeepFilterNet3 gürültü bastırma.
LLM: Qwen3.5-0.8B Chat (cihaz üstü, INT4 MLX + INT8 CoreML, akış halinde token).
Soniqo Android üzerinde çalışıyor mu?
Evet. speech-android SDK'sı, ONNX Runtime ve NNAPI donanım hızlandırması ile bir Kotlin API'ı sağlar. Android 8+ (API 26) üzerinde arm64-v8a'yı destekler. Modeller ilk kullanımda HuggingFace'ten otomatik olarak indirilir (~1.2 GB). Kurulum talimatları için Başla — Android'e bakın.
Soniqo Linux üzerinde çalışıyor mu?
Evet. speech-core projesi, examples/linux altında gömülü ve otomotiv Linux (Yocto, edge cihazlar) için bir C API içerir. Modeller, ONNX Runtime veya LiteRT backend'leri üzerinden çalışır; Qualcomm donanımı için isteğe bağlı QNN hızlandırması mevcuttur. ARM64 ve x86_64 desteklenir. Kurulum talimatları için Başla — Linux'a bakın.
Soniqo Windows üzerinde çalışıyor mu?
Evet. Speech Core, Windows x86_64 üzerinde her iki çıkarım backend'i ile — ONNX Runtime ve LiteRT — derlenir; akışlı konuşmadan metne (Nemotron, Parakeet), ses etkinliği algılama, konuşmacı ayrıştırma ve VoxCPM2 metinden konuşmayı kapsar. Speech Studio ayrıca yerel ses klonlama için bir Windows yükleyicisi sunar.
Modelleri platformlar arasında paylaşabilir miyim?
Çekirdek modeller (Parakeet, Kokoro, Silero, DeepFilter) Android, Linux ve Windows'ta ONNX formatını kullanır. Apple CoreML/MLX formatlarını kullanır. Altta yatan ağırlıklar aynı, her platformun donanım hızlandırması için optimize edilmiş dışa aktarım formatları farklıdır.