Konuşma Restorasyonu — Sidon
Gürültülü, yankılı veya bant sınırlı konuşmayı Sidon ile temiz 48 kHz sese geri kazanın — gürültü giderme, yankı giderme ve bant genişliği genişletmeyi birleştiren tek bir model. Tamamen cihaz üzerinde çalışır (Apple Silicon'da CoreML, diğer platformlarda ONNX Runtime). Konuşmayı yalnızca gürültüyü maskeleyerek değil, öğrenilmiş temsillerden yeniden oluşturduğu için bir ses klonlama referansı hazırlamada özellikle iyidir: kaydı temizlerken konuşmacının kimliğini korur.
Konuşma İyileştirme (DeepFilterNet3) küçük, gerçek zamanlı bir gürültü bastırıcıdır. Sidon ise daha ağır bir üretken restorasyon modelidir: ayrıca yankıyı kaldırır ve yüksek frekanslı detayı 48 kHz'e yeniden oluşturur. Canlı gürültü giderme için DeepFilterNet3'ü, referansların ve arşiv kayıtlarının çevrimdışı temizliği için Sidon'u kullanın.
Mimari
Sidon iki aşamalı bir pipeline'dır: kendi kendine denetimli bir özellik tahminleyicisi konuşma temsilini arındırır ve bir sinirsel vocoder bundan temiz bir dalga formu yeniden sentezler.
| Aşama | Ayrıntılar |
|---|---|
| Ön uç | w2v-BERT 2.0 SeamlessM4T log-mel özellikleri (16 kHz → 160-boyut) |
| Tahminleyici | LoRA ile ince ayarlanmış arındırma başlığına sahip w2v-BERT 2.0 (8 katman) → arındırılmış özellikler |
| Vocoder | DAC çözücü, arındırılmış özelliklerden 48 kHz sesi yeniden sentezler |
Pipeline şu şekildedir: 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio. Toplam ≈ 246M parametre (193.6M tahminleyici + 52.4M vocoder).
İşleme Pipeline'ı
- Özellik çıkarımı — 16 kHz girişten w2v-BERT 2.0 log-mel özelliklerini hesaplayın (Apple'da Accelerate/vDSP, diğer platformlarda C++)
- Tahminleyici — LoRA ile uyarlanmış w2v-BERT encoder, gürültülü/yankılı özellikleri temiz olanlara eşler
- Vocoder — DAC çözücü, arındırılmış özelliklerden temiz bir 48 kHz dalga formunu yeniden oluşturur
- Parçalama — Daha uzun ses sabit pencerelerde (~10 sn) işlenir ve 48 kHz zaman çizelgesinde birleştirilir
Kalite
Yankılı bir referans klipte restorasyon, konuşmacı kimliğini bozmadan algısal kaliteyi yükseltir (referanssız MOS):
| Ses | DNSMOS OVRL | UTMOS | Konuşmacı kosinüsü |
|---|---|---|---|
| Giriş (yankılı) | 2.90 | 2.99 | — |
| Sidon ile restore edilmiş | 3.29 | 3.40 | 0.79 |
En büyük kazanç arka plan skorundadır (yankı kaldırılmıştır). Konuşmacı benzerliği korunur ki bu, bir klonlama referansını temizlerken önemli olan şeydir.
Model Varyantları
Nicelendirme tahminleyiciyi sıkıştırır; DAC vocoder ise daha yüksek hassasiyette kalır (ses kalitesi). Apple'da int8, k-means palettization kullanır; ONNX'te int8 yalnızca ağırlık temelli kanal başınadır.
| Format | Hassasiyet | Paket boyutu |
|---|---|---|
| CoreML | int8 (tahminleyici) + FP16 (vocoder) | ~407 MB |
| CoreML | FP16 | ~713 MB |
| ONNX | int8 (tahminleyici) + FP16 (vocoder) | ~286 MB |
| ONNX | FP16 | ~470 MB |
| ONNX | FP32 | ~939 MB |
CLI Kullanımı
# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav
# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference
Sidon, giriş örnekleme hızından bağımsız olarak 48 kHz ses üretir (örnekleme hızını yükseltir ve bant genişliğini geri kazanır). DeepFilterNet3'ten daha ağır olan çevrimdışı bir restorasyon modelidir ve canlı bir akış yerine bir dosya üzerinde çalıştırılması en iyisidir.
Model İndirmeleri
| Model | Format | HuggingFace |
|---|---|---|
| Sidon (CoreML) | fp16 + int8 | aufklarer/Sidon-CoreML |
| Sidon (ONNX) | int8 + fp16 + fp32 | soniqo/Sidon-ONNX |
Diğer Modellerle Birleştirme
Sidon en çok bir ön işleme adımı olarak yararlıdır:
- Ses klonlamadan önce — Klonun odayı değil sesi devralması için gürültülü/yankılı bir referansı temizleyin
- Transkripsiyondan önce — ASR doğruluğunu iyileştirmek için arşiv veya uzak alan kayıtlarını restore edin
- Konuşmacı embedding'inden önce — Daha temiz ses, daha güvenilir embedding'ler üretir
Swift API
import SpeechRestoration
let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)
Ayrıca Speech Core (ONNX Runtime) aracılığıyla Android, Linux ve Windows'ta da mevcuttur. Sidon (MIT) üzerine inşa edilmiştir.