시작하기

Apple Android Linux Windows

speech-swift는 Apple Silicon 기반 macOS와 iOS를 위한 온디바이스 AI 음성 처리를 제공합니다. 모델은 MLX (Metal GPU)와 CoreML (Neural Engine)을 사용해 로컬에서 실행됩니다.

요구사항

macOS 15+ (Sequoia 이상)
Apple Silicon (M1, M2, M3, M4 시리즈)
Xcode 16+ / Swift 6.0+
최소 8 GB RAM (대형 모델은 16 GB 권장)

설치

Homebrew (CLI)

macOS에서 speech-swift를 시도하는 가장 빠른 방법. speech CLI와 HTTP/WebSocket 서버 speech-server(OpenAI 호환 /v1/realtime 엔드포인트)를 모두 설치합니다. 네이티브 ARM Homebrew(/opt/homebrew)가 필요합니다.

brew install speech

설치 후, 두 바이너리 모두 PATH에 있습니다:

speech transcribe recording.wav
speech speak "Hello, world!" --output hello.wav
speech-server --port 8080            # 로컬 HTTP / WebSocket 서버

Swift Package Manager

Package.swift의 의존성에 speech-swift를 추가합니다:

dependencies: [
    .package(url: "https://github.com/soniqo/speech-swift", branch: "main")
]

그런 다음 필요한 모듈을 타겟에 추가하세요:

.target(
    name: "MyApp",
    dependencies: [
        .product(name: "Qwen3ASR", package: "speech-swift"),
        .product(name: "Qwen3TTS", package: "speech-swift"),
        .product(name: "SpeechVAD", package: "speech-swift"),
        // ... 필요한 모듈을 추가하세요
    ]
)

사용 가능한 모듈

모듈	설명
`Qwen3ASR`	음성-텍스트 변환 (Qwen3-ASR)
`ParakeetASR`	음성-텍스트 변환 (Parakeet TDT, CoreML)
`Qwen3TTS`	텍스트-음성 변환 (Qwen3-TTS)
`CosyVoiceTTS`	텍스트-음성 변환 (CosyVoice3, 다언어)
`KokoroTTS`	텍스트-음성 변환 (Kokoro-82M, CoreML, iOS 지원)
`Qwen3Chat`	온디바이스 LLM 채팅 (Qwen3.5-0.8B, MLX + CoreML)
`PersonaPlex`	음성-음성 변환 (PersonaPlex 7B)
`SpeechVAD`	VAD (Silero + Pyannote), 화자 분리, 화자 임베딩
`SpeechEnhancement`	노이즈 억제 (DeepFilterNet3, CoreML)
`AudioCommon`	공유 프로토콜, 오디오 I/O, HuggingFace 다운로더

소스에서 빌드

저장소를 클론하고 빌드하세요:

git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build

중요

make build는 MLX Metal 셰이더 라이브러리를 자동으로 컴파일합니다. 이것이 없으면 JIT 셰이더 컴파일 때문에 GPU 추론이 약 5배 느려집니다.

빠른 시작: 오디오 전사

CLI

# WAV 파일 전사
.build/release/speech transcribe recording.wav

Swift API

import Qwen3ASR

let model = try await Qwen3ASRModel.fromPretrained()
// audioSamples: [Float] PCM at 16 kHz (e.g. decoded from a WAV)
let text = model.transcribe(audio: audioSamples, sampleRate: 16000)
print(text)

모델은 첫 사용 시 HuggingFace에서 자동 다운로드되며 ~/Library/Caches/qwen3-speech/에 캐시됩니다.

빠른 시작: 텍스트-음성 변환

CLI

# 음성 생성
.build/release/speech speak "Hello, world!" --output hello.wav

Swift API

import Qwen3TTS
import AudioCommon

let model = try await Qwen3TTSModel.fromPretrained()
let audio = model.synthesize(text: "Hello, world!", language: "english")
try WAVWriter.write(samples: audio, sampleRate: 24000, to: URL(filePath: "hello.wav"))

모델 다운로드

모든 모델은 첫 사용 시 HuggingFace에서 다운로드됩니다. 대략적인 크기:

모델	크기	RAM 사용량
Qwen3-ASR 0.6B (4-bit MLX)	680 MB	~1.0 GB peak
Qwen3-ASR 0.6B (8-bit MLX)	1.0 GB	~1.3 GB peak
Qwen3-ASR 0.6B (CoreML INT8)	180 MB	~1.4 GB peak
Qwen3-ASR 1.7B (4-bit MLX)	2.1 GB	~3 GB peak
Qwen3-ASR 1.7B (8-bit MLX)	3.2 GB	~2.7 GB peak
Parakeet-TDT v3 (CoreML INT8)	500 MB	~900 MB peak
Omnilingual CTC 300M (4-bit MLX)	193 MB	~400 MB peak
Omnilingual CTC 300M (CoreML INT8)	312 MB	~550 MB peak
Qwen3-TTS 0.6B (4비트)	1.7 GB	피크 약 2 GB
Qwen3-TTS 1.7B (4비트)	3.2 GB	피크 약 4 GB
CosyVoice3 (4비트 LLM)	1.2 GB	피크 약 1.5 GB
Kokoro-82M (CoreML INT8)	89 MB	피크 약 200 MB
Qwen3.5-Chat 0.8B (INT4 MLX)	418 MB	피크 약 700 MB
Qwen3.5-Chat 0.8B (INT8 CoreML)	981 MB	피크 약 1.2 GB
PersonaPlex 7B (8비트) 권장	9.1 GB	피크 약 11 GB
PersonaPlex 7B (4비트)	4.9 GB	피크 약 6.5 GB
Pyannote VAD	5.7 MB	피크 약 20 MB
Silero VAD v5	1.2 MB	피크 약 5 MB
WeSpeaker ResNet34	25 MB	피크 약 50 MB
DeepFilterNet3 (FP16)	4.2 MB	피크 약 10 MB

다음 단계

CLI 레퍼런스 — 사용 가능한 모든 명령 및 옵션
Qwen3-ASR 가이드 — 상세 음성-텍스트 문서
Qwen3-TTS 가이드 — 상세 텍스트-음성 문서
API 및 프로토콜 — 공유 프로토콜과 타입