स्पीच रिस्टोरेशन — Sidon

noisy, reverberant या band-limited स्पीच को साफ़ 48 kHz ऑडियो में बहाल करें Sidon के साथ — एक ऐसा मॉडल जो denoising, dereverberation और bandwidth extension को एक साथ जोड़ता है। यह पूरी तरह डिवाइस-पर चलता है (Apple Silicon पर CoreML, अन्यत्र ONNX Runtime)। चूँकि यह केवल नॉइज़ को मास्क करने के बजाय learned representations से स्पीच का पुनर्निर्माण करता है, यह वॉयस-क्लोनिंग रेफ़रेंस तैयार करने में विशेष रूप से अच्छा है: यह रिकॉर्डिंग को साफ़ करता है जबकि स्पीकर की पहचान को संरक्षित रखता है।

Sidon बनाम DeepFilterNet3 — कब उपयोग करें

स्पीच एन्हांसमेंट (DeepFilterNet3) एक छोटा, रीयल-टाइम नॉइज़ सप्रेसर है। Sidon एक भारी generative restoration मॉडल है: यह reverberation को भी हटाता है और 48 kHz तक high-frequency detail का पुनर्निर्माण करता है। लाइव नॉइज़ हटाने के लिए DeepFilterNet3 का उपयोग करें, और रेफ़रेंस एवं archival रिकॉर्डिंग की ऑफ़लाइन सफ़ाई के लिए Sidon का।

आर्किटेक्चर

Sidon एक two-stage पाइपलाइन है: एक self-supervised feature predictor स्पीच representation को साफ़ करता है, और एक neural vocoder उससे साफ़ waveform को फिर से संश्लेषित करता है।

चरणविवरण
Front-endw2v-BERT 2.0 SeamlessM4T log-mel features (16 kHz → 160-dim)
Predictorw2v-BERT 2.0 (8 layers) एक LoRA-fine-tuned cleanse head के साथ → cleansed features
VocoderDAC decoder cleansed features से 48 kHz ऑडियो को फिर से संश्लेषित करता है

पाइपलाइन है 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio। कुल ≈ 246M पैरामीटर (193.6M predictor + 52.4M vocoder)।

प्रोसेसिंग पाइपलाइन

  1. Feature extraction — 16 kHz इनपुट से w2v-BERT 2.0 log-mel features की गणना करें (Apple पर Accelerate/vDSP, अन्य प्लेटफ़ॉर्म पर C++)
  2. Predictor — LoRA-adapted w2v-BERT encoder noisy/reverberant features को साफ़ features में मैप करता है
  3. Vocoder — DAC decoder cleansed features से एक साफ़ 48 kHz waveform का पुनर्निर्माण करता है
  4. Chunking — लंबे ऑडियो को निश्चित windows (~10 s) में प्रोसेस किया जाता है और 48 kHz timeline पर जोड़ा जाता है

गुणवत्ता

एक reverberant रेफ़रेंस क्लिप पर, रिस्टोरेशन स्पीकर की पहचान को बरकरार रखते हुए perceptual गुणवत्ता को बढ़ाता है (no-reference MOS):

ऑडियोDNSMOS OVRLUTMOSSpeaker cosine
इनपुट (reverberant)2.902.99
Sidon द्वारा बहाल3.293.400.79

सबसे बड़ी बढ़त background score में है (reverberation हटाया गया)। स्पीकर समानता संरक्षित रहती है, जो किसी cloning रेफ़रेंस को साफ़ करते समय सबसे महत्वपूर्ण है।

मॉडल वेरिएंट

Quantization predictor को संपीड़ित करता है; DAC vocoder उच्च प्रिसिज़न पर रहता है (ऑडियो गुणवत्ता)। Apple पर, int8 k-means palettization का उपयोग करता है; ONNX पर, int8 weight-only per-channel है।

फ़ॉर्मैटप्रिसिज़नबंडल आकार
CoreMLint8 (predictor) + FP16 (vocoder)~407 MB
CoreMLFP16~713 MB
ONNXint8 (predictor) + FP16 (vocoder)~286 MB
ONNXFP16~470 MB
ONNXFP32~939 MB

CLI उपयोग

# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav

# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference
महत्वपूर्ण

Sidon इनपुट sample rate की परवाह किए बिना 48 kHz ऑडियो आउटपुट करता है (यह upsample करता है और bandwidth को बहाल करता है)। यह एक ऑफ़लाइन रिस्टोरेशन मॉडल है — DeepFilterNet3 से भारी — और इसे live stream के बजाय किसी फ़ाइल पर चलाना सबसे अच्छा है।

मॉडल डाउनलोड

मॉडलफ़ॉर्मैटHuggingFace
Sidon (CoreML)fp16 + int8aufklarer/Sidon-CoreML
Sidon (ONNX)int8 + fp16 + fp32soniqo/Sidon-ONNX

अन्य मॉडलों के साथ संयोजन

Sidon एक प्रीप्रोसेसिंग चरण के रूप में सबसे उपयोगी है:

Swift API

import SpeechRestoration

let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)

Speech Core (ONNX Runtime) के माध्यम से Android, Linux और Windows पर भी उपलब्धSidon (MIT) पर निर्मित।