Konuşma Restorasyonu — Sidon

Gürültülü, yankılı veya bant sınırlı konuşmayı Sidon ile temiz 48 kHz sese geri kazanın — gürültü giderme, yankı giderme ve bant genişliği genişletmeyi birleştiren tek bir model. Tamamen cihaz üzerinde çalışır (Apple Silicon'da CoreML, diğer platformlarda ONNX Runtime). Konuşmayı yalnızca gürültüyü maskeleyerek değil, öğrenilmiş temsillerden yeniden oluşturduğu için bir ses klonlama referansı hazırlamada özellikle iyidir: kaydı temizlerken konuşmacının kimliğini korur.

Sidon mı DeepFilterNet3 mü kullanmalı

Konuşma İyileştirme (DeepFilterNet3) küçük, gerçek zamanlı bir gürültü bastırıcıdır. Sidon ise daha ağır bir üretken restorasyon modelidir: ayrıca yankıyı kaldırır ve yüksek frekanslı detayı 48 kHz'e yeniden oluşturur. Canlı gürültü giderme için DeepFilterNet3'ü, referansların ve arşiv kayıtlarının çevrimdışı temizliği için Sidon'u kullanın.

Mimari

Sidon iki aşamalı bir pipeline'dır: kendi kendine denetimli bir özellik tahminleyicisi konuşma temsilini arındırır ve bir sinirsel vocoder bundan temiz bir dalga formu yeniden sentezler.

AşamaAyrıntılar
Ön uçw2v-BERT 2.0 SeamlessM4T log-mel özellikleri (16 kHz → 160-boyut)
TahminleyiciLoRA ile ince ayarlanmış arındırma başlığına sahip w2v-BERT 2.0 (8 katman) → arındırılmış özellikler
VocoderDAC çözücü, arındırılmış özelliklerden 48 kHz sesi yeniden sentezler

Pipeline şu şekildedir: 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio. Toplam ≈ 246M parametre (193.6M tahminleyici + 52.4M vocoder).

İşleme Pipeline'ı

  1. Özellik çıkarımı — 16 kHz girişten w2v-BERT 2.0 log-mel özelliklerini hesaplayın (Apple'da Accelerate/vDSP, diğer platformlarda C++)
  2. Tahminleyici — LoRA ile uyarlanmış w2v-BERT encoder, gürültülü/yankılı özellikleri temiz olanlara eşler
  3. Vocoder — DAC çözücü, arındırılmış özelliklerden temiz bir 48 kHz dalga formunu yeniden oluşturur
  4. Parçalama — Daha uzun ses sabit pencerelerde (~10 sn) işlenir ve 48 kHz zaman çizelgesinde birleştirilir

Kalite

Yankılı bir referans klipte restorasyon, konuşmacı kimliğini bozmadan algısal kaliteyi yükseltir (referanssız MOS):

SesDNSMOS OVRLUTMOSKonuşmacı kosinüsü
Giriş (yankılı)2.902.99
Sidon ile restore edilmiş3.293.400.79

En büyük kazanç arka plan skorundadır (yankı kaldırılmıştır). Konuşmacı benzerliği korunur ki bu, bir klonlama referansını temizlerken önemli olan şeydir.

Model Varyantları

Nicelendirme tahminleyiciyi sıkıştırır; DAC vocoder ise daha yüksek hassasiyette kalır (ses kalitesi). Apple'da int8, k-means palettization kullanır; ONNX'te int8 yalnızca ağırlık temelli kanal başınadır.

FormatHassasiyetPaket boyutu
CoreMLint8 (tahminleyici) + FP16 (vocoder)~407 MB
CoreMLFP16~713 MB
ONNXint8 (tahminleyici) + FP16 (vocoder)~286 MB
ONNXFP16~470 MB
ONNXFP32~939 MB

CLI Kullanımı

# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav

# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference
Önemli

Sidon, giriş örnekleme hızından bağımsız olarak 48 kHz ses üretir (örnekleme hızını yükseltir ve bant genişliğini geri kazanır). DeepFilterNet3'ten daha ağır olan çevrimdışı bir restorasyon modelidir ve canlı bir akış yerine bir dosya üzerinde çalıştırılması en iyisidir.

Model İndirmeleri

ModelFormatHuggingFace
Sidon (CoreML)fp16 + int8aufklarer/Sidon-CoreML
Sidon (ONNX)int8 + fp16 + fp32soniqo/Sidon-ONNX

Diğer Modellerle Birleştirme

Sidon en çok bir ön işleme adımı olarak yararlıdır:

Swift API

import SpeechRestoration

let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)

Ayrıca Speech Core (ONNX Runtime) aracılığıyla Android, Linux ve Windows'ta da mevcuttur. Sidon (MIT) üzerine inşa edilmiştir.