स्पीच रिस्टोरेशन — Sidon

noisy, reverberant या band-limited स्पीच को साफ़ 48 kHz ऑडियो में बहाल करें Sidon के साथ — एक ऐसा मॉडल जो denoising, dereverberation और bandwidth extension को एक साथ जोड़ता है। यह पूरी तरह डिवाइस-पर चलता है (Apple Silicon पर CoreML, अन्यत्र ONNX Runtime)। चूँकि यह केवल नॉइज़ को मास्क करने के बजाय learned representations से स्पीच का पुनर्निर्माण करता है, यह वॉयस-क्लोनिंग रेफ़रेंस तैयार करने में विशेष रूप से अच्छा है: यह रिकॉर्डिंग को साफ़ करता है जबकि स्पीकर की पहचान को संरक्षित रखता है।

Sidon बनाम DeepFilterNet3 — कब उपयोग करें

स्पीच एन्हांसमेंट (DeepFilterNet3) एक छोटा, रीयल-टाइम नॉइज़ सप्रेसर है। Sidon एक भारी generative restoration मॉडल है: यह reverberation को भी हटाता है और 48 kHz तक high-frequency detail का पुनर्निर्माण करता है। लाइव नॉइज़ हटाने के लिए DeepFilterNet3 का उपयोग करें, और रेफ़रेंस एवं archival रिकॉर्डिंग की ऑफ़लाइन सफ़ाई के लिए Sidon का।

आर्किटेक्चर

Sidon एक two-stage पाइपलाइन है: एक self-supervised feature predictor स्पीच representation को साफ़ करता है, और एक neural vocoder उससे साफ़ waveform को फिर से संश्लेषित करता है।

चरण	विवरण
Front-end	w2v-BERT 2.0 SeamlessM4T log-mel features (16 kHz → 160-dim)
Predictor	w2v-BERT 2.0 (8 layers) एक LoRA-fine-tuned cleanse head के साथ → cleansed features
Vocoder	DAC decoder cleansed features से 48 kHz ऑडियो को फिर से संश्लेषित करता है

पाइपलाइन है 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio। कुल ≈ 246M पैरामीटर (193.6M predictor + 52.4M vocoder)।

प्रोसेसिंग पाइपलाइन

Feature extraction — 16 kHz इनपुट से w2v-BERT 2.0 log-mel features की गणना करें (Apple पर Accelerate/vDSP, अन्य प्लेटफ़ॉर्म पर C++)
Predictor — LoRA-adapted w2v-BERT encoder noisy/reverberant features को साफ़ features में मैप करता है
Vocoder — DAC decoder cleansed features से एक साफ़ 48 kHz waveform का पुनर्निर्माण करता है
Chunking — लंबे ऑडियो को निश्चित windows (~10 s) में प्रोसेस किया जाता है और 48 kHz timeline पर जोड़ा जाता है

गुणवत्ता

एक reverberant रेफ़रेंस क्लिप पर, रिस्टोरेशन स्पीकर की पहचान को बरकरार रखते हुए perceptual गुणवत्ता को बढ़ाता है (no-reference MOS):

ऑडियो	DNSMOS OVRL	UTMOS	Speaker cosine
इनपुट (reverberant)	2.90	2.99	—
Sidon द्वारा बहाल	3.29	3.40	0.79

सबसे बड़ी बढ़त background score में है (reverberation हटाया गया)। स्पीकर समानता संरक्षित रहती है, जो किसी cloning रेफ़रेंस को साफ़ करते समय सबसे महत्वपूर्ण है।

मॉडल वेरिएंट

Quantization predictor को संपीड़ित करता है; DAC vocoder उच्च प्रिसिज़न पर रहता है (ऑडियो गुणवत्ता)। Apple पर, int8 k-means palettization का उपयोग करता है; ONNX पर, int8 weight-only per-channel है।

फ़ॉर्मैट	प्रिसिज़न	बंडल आकार
CoreML	int8 (predictor) + FP16 (vocoder)	~407 MB
CoreML	FP16	~713 MB
ONNX	int8 (predictor) + FP16 (vocoder)	~286 MB
ONNX	FP16	~470 MB
ONNX	FP32	~939 MB

CLI उपयोग

# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav

# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference

महत्वपूर्ण

Sidon इनपुट sample rate की परवाह किए बिना 48 kHz ऑडियो आउटपुट करता है (यह upsample करता है और bandwidth को बहाल करता है)। यह एक ऑफ़लाइन रिस्टोरेशन मॉडल है — DeepFilterNet3 से भारी — और इसे live stream के बजाय किसी फ़ाइल पर चलाना सबसे अच्छा है।

मॉडल डाउनलोड

मॉडल	फ़ॉर्मैट	HuggingFace
Sidon (CoreML)	fp16 + int8	aufklarer/Sidon-CoreML
Sidon (ONNX)	int8 + fp16 + fp32	soniqo/Sidon-ONNX

अन्य मॉडलों के साथ संयोजन

Sidon एक प्रीप्रोसेसिंग चरण के रूप में सबसे उपयोगी है:

वॉयस क्लोनिंग से पहले — किसी noisy/reverberant रेफ़रेंस को साफ़ करें ताकि clone कमरे की नहीं, बल्कि आवाज़ की विरासत ग्रहण करे
ट्रांसक्रिप्शन से पहले — ASR सटीकता में सुधार करने के लिए archival या far-field रिकॉर्डिंग को बहाल करें
स्पीकर एम्बेडिंग से पहले — साफ़ ऑडियो अधिक विश्वसनीय embeddings उत्पन्न करता है

Swift API

import SpeechRestoration

let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)

Speech Core (ONNX Runtime) के माध्यम से Android, Linux और Windows पर भी उपलब्ध। Sidon (MIT) पर निर्मित।