Konuşma Restorasyonu — Sidon

Gürültülü, yankılı veya bant sınırlı konuşmayı Sidon ile temiz 48 kHz sese geri kazanın — gürültü giderme, yankı giderme ve bant genişliği genişletmeyi birleştiren tek bir model. Tamamen cihaz üzerinde çalışır (Apple Silicon'da CoreML, diğer platformlarda ONNX Runtime). Konuşmayı yalnızca gürültüyü maskeleyerek değil, öğrenilmiş temsillerden yeniden oluşturduğu için bir ses klonlama referansı hazırlamada özellikle iyidir: kaydı temizlerken konuşmacının kimliğini korur.

Sidon mı DeepFilterNet3 mü kullanmalı

Konuşma İyileştirme (DeepFilterNet3) küçük, gerçek zamanlı bir gürültü bastırıcıdır. Sidon ise daha ağır bir üretken restorasyon modelidir: ayrıca yankıyı kaldırır ve yüksek frekanslı detayı 48 kHz'e yeniden oluşturur. Canlı gürültü giderme için DeepFilterNet3'ü, referansların ve arşiv kayıtlarının çevrimdışı temizliği için Sidon'u kullanın.

Mimari

Sidon iki aşamalı bir pipeline'dır: kendi kendine denetimli bir özellik tahminleyicisi konuşma temsilini arındırır ve bir sinirsel vocoder bundan temiz bir dalga formu yeniden sentezler.

Aşama	Ayrıntılar
Ön uç	w2v-BERT 2.0 SeamlessM4T log-mel özellikleri (16 kHz → 160-boyut)
Tahminleyici	LoRA ile ince ayarlanmış arındırma başlığına sahip w2v-BERT 2.0 (8 katman) → arındırılmış özellikler
Vocoder	DAC çözücü, arındırılmış özelliklerden 48 kHz sesi yeniden sentezler

Pipeline şu şekildedir: 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio. Toplam ≈ 246M parametre (193.6M tahminleyici + 52.4M vocoder).

İşleme Pipeline'ı

Özellik çıkarımı — 16 kHz girişten w2v-BERT 2.0 log-mel özelliklerini hesaplayın (Apple'da Accelerate/vDSP, diğer platformlarda C++)
Tahminleyici — LoRA ile uyarlanmış w2v-BERT encoder, gürültülü/yankılı özellikleri temiz olanlara eşler
Vocoder — DAC çözücü, arındırılmış özelliklerden temiz bir 48 kHz dalga formunu yeniden oluşturur
Parçalama — Daha uzun ses sabit pencerelerde (~10 sn) işlenir ve 48 kHz zaman çizelgesinde birleştirilir

Kalite

Yankılı bir referans klipte restorasyon, konuşmacı kimliğini bozmadan algısal kaliteyi yükseltir (referanssız MOS):

Ses	DNSMOS OVRL	UTMOS	Konuşmacı kosinüsü
Giriş (yankılı)	2.90	2.99	—
Sidon ile restore edilmiş	3.29	3.40	0.79

En büyük kazanç arka plan skorundadır (yankı kaldırılmıştır). Konuşmacı benzerliği korunur ki bu, bir klonlama referansını temizlerken önemli olan şeydir.

Model Varyantları

Nicelendirme tahminleyiciyi sıkıştırır; DAC vocoder ise daha yüksek hassasiyette kalır (ses kalitesi). Apple'da int8, k-means palettization kullanır; ONNX'te int8 yalnızca ağırlık temelli kanal başınadır.

Format	Hassasiyet	Paket boyutu
CoreML	int8 (tahminleyici) + FP16 (vocoder)	~407 MB
CoreML	FP16	~713 MB
ONNX	int8 (tahminleyici) + FP16 (vocoder)	~286 MB
ONNX	FP16	~470 MB
ONNX	FP32	~939 MB

CLI Kullanımı

# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav

# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference

Önemli

Sidon, giriş örnekleme hızından bağımsız olarak 48 kHz ses üretir (örnekleme hızını yükseltir ve bant genişliğini geri kazanır). DeepFilterNet3'ten daha ağır olan çevrimdışı bir restorasyon modelidir ve canlı bir akış yerine bir dosya üzerinde çalıştırılması en iyisidir.

Model İndirmeleri

Model	Format	HuggingFace
Sidon (CoreML)	fp16 + int8	aufklarer/Sidon-CoreML
Sidon (ONNX)	int8 + fp16 + fp32	soniqo/Sidon-ONNX

Diğer Modellerle Birleştirme

Sidon en çok bir ön işleme adımı olarak yararlıdır:

Ses klonlamadan önce — Klonun odayı değil sesi devralması için gürültülü/yankılı bir referansı temizleyin
Transkripsiyondan önce — ASR doğruluğunu iyileştirmek için arşiv veya uzak alan kayıtlarını restore edin
Konuşmacı embedding'inden önce — Daha temiz ses, daha güvenilir embedding'ler üretir

Swift API

import SpeechRestoration

let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)

Ayrıca Speech Core (ONNX Runtime) aracılığıyla Android, Linux ve Windows'ta da mevcuttur. Sidon (MIT) üzerine inşa edilmiştir.