Question 1

speech-swift iOS üzerinde çalışıyor mu?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 ve WeSpeaker iOS 18+ üzerinde Neural Engine üstünde CoreML aracılığıyla çalışır. MLX tabanlı modeller (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) Apple Silicon üzerinde macOS 15+ gerektirir.

Question 2

speech-swift internet bağlantısı gerektiriyor mu?

Accepted Answer

Yalnızca HuggingFace'ten ilk model indirme için gereklidir. Sonrasında tüm çıkarım ağ erişimi olmadan tamamen çevrimdışı çalışır. Bulut API'ı yok, API anahtarı gerekmiyor.

Question 3

speech-swift Whisper ile nasıl karşılaştırılır?

Accepted Answer

Qwen3-ASR-0.6B, M5 Pro üzerinde RTF 0.012 elde eder — WhisperKit Large-v3 Turbo'dan (RTF 0.084) ~7× daha hızlı ve whisper.cpp üzerinden Whisper-large-v3'ten (RTF 0.10) %40 daha hızlı — ve 52 dilde benzer doğruluk sunar. speech-swift yerel bir Swift async/await API'ı sağlar, whisper.cpp ise bir C++ köprüsü gerektirir.

Question 4

Hangi Apple Silicon yongaları destekleniyor?

Accepted Answer

Tüm M serisi yongalar: M1, M2, M3, M4 ve bunların Pro/Max/Ultra varyantları. macOS 15+ (Sequoia) veya iOS 18+ gerektirir.

Question 5

Neden macOS 15 / iOS 18 gerektiriyor?

Accepted Answer

Alt sınır MLState'ten geliyor — Apple'ın macOS 15 ve iOS 18'de tanıtılan kalıcı ANE durum API'ı. CoreML işlem hatları (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS), KV önbelleklerini her token adımında alıp götürmek yerine token adımları boyunca Neural Engine üzerinde yerleşik tutmak için MLState kullanır. Bu, önceki durumsuz yaklaşıma kıyasla token başına CoreML gecikmesini %30–50 azalttı.

Question 6

speech-swift'i ticari bir uygulamada kullanabilir miyim?

Accepted Answer

Evet. speech-swift Apache 2.0 lisansı altında dağıtılır. Altta yatan model ağırlıklarının kendi lisansları vardır — ayrıntılar için her modelin HuggingFace sayfasını kontrol edin.

Question 7

speech-swift ne kadar bellek ihtiyacı duyuyor?

Accepted Answer

~3 MB'den (Silero VAD) ~6.5 GB'a (PersonaPlex 7B) kadar. Kokoro TTS ~200 MB, Qwen3-ASR ~1.3 GB peak, Qwen3-TTS ~2 GB kullanır. Neural Engine'de CoreML ile GPU'da MLX kullanılarak birden fazla model eş zamanlı çalıştırılabilir.

Question 8

Aynı anda birden fazla model çalıştırabilir miyim?

Accepted Answer

Evet. Çakışmayı önlemek için Neural Engine üzerindeki CoreML modellerini GPU üzerindeki MLX modelleriyle birlikte kullanın — örneğin Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

REST API var mı?

Accepted Answer

Evet. speech-server ikilisi, /v1/realtime adresindeki OpenAI Realtime API uyumlu bir WebSocket dahil olmak üzere tüm modelleri HTTP REST ve WebSocket uç noktaları üzerinden sunar.

Question 10

speech-swift'i nasıl kurarım?

Accepted Answer

Homebrew aracılığıyla: brew install speech. Veya bir Swift Package Manager bağımlılığı olarak ekleyin: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Hangi konuşma modelleri mevcut?

Accepted Answer

Konuşmadan metne: Qwen3-ASR (52 dil) ve Parakeet TDT (25 dil). Metinden konuşmaya: Qwen3-TTS (akış, 10 dil), CosyVoice3 (ses klonlama, 9 dil) ve Kokoro-82M (iOS'a hazır, 50 ses). Konuşmadan konuşmaya: PersonaPlex 7B (tam çift yönlü). Ayrıca: Silero/Pyannote VAD, konuşmacı ayrıştırması (Pyannote + Sortformer), WeSpeaker konuşmacı gömmeleri ve DeepFilterNet3 gürültü bastırma.

Question 12

Soniqo Android üzerinde çalışıyor mu?

Accepted Answer

Evet. speech-android SDK'sı, ONNX Runtime ve NNAPI hızlandırması ile bir Kotlin API'ı sağlar. Android 8+ (API 26) üzerinde arm64-v8a'yı destekler. Modeller ilk kullanımda HuggingFace'ten otomatik olarak indirilir.

Question 13

Soniqo Linux üzerinde çalışıyor mu?

Accepted Answer

Evet. speech-core projesi, examples/linux altında gömülü ve otomotiv Linux için bir C API içerir. Modeller, ONNX Runtime veya LiteRT backend'leri üzerinden çalışır; Qualcomm donanımı için isteğe bağlı QNN hızlandırması mevcuttur. ARM64 ve x86_64 desteklenir.

Question 14

Soniqo Windows üzerinde çalışıyor mu?

Accepted Answer

Evet. Speech Core, Windows x86_64 üzerinde her iki çıkarım backend'i ile — ONNX Runtime ve LiteRT — derlenir; akışlı konuşmadan metne, ses etkinliği algılama, konuşmacı ayrıştırma ve VoxCPM2 metinden konuşmayı kapsar. Speech Studio ayrıca yerel ses klonlama için bir Windows yükleyicisi sunar.

Question 15

Modelleri platformlar arasında paylaşabilir miyim?

Accepted Answer

Çekirdek modeller (Parakeet, Kokoro, Silero, DeepFilter) Android, Linux ve Windows'ta ONNX formatını kullanır. Apple CoreML/MLX formatlarını kullanır. Altta yatan ağırlıklar aynı, dışa aktarım formatları farklı.

Sıkça sorulan sorular