Emilia
Emilia Pipeline
1. Standardization
将原始语音数据统一格式,包括:
转换为WAV格式
设置为单声道
重采样至24 kHz
设置样本宽度为16位,调整目标分贝级别为-20 dBFS
标准化波形,确保值在-1到1之间,避免失真。
2. Source Separation
从原始语音数据中提取清晰的人声,去除背景音乐或噪声。使用Ultimate Vocal Remover及其预训练模型UVR-MDX-Net Inst 3进行源分离。
3. Speaker Diarization
将长语音数据按说话人分割成多个片段,确保每个片段仅包含一个说话人。使用pyannote/speaker-diarization-3.1管道,完成说话人分割、嵌入和聚类。
4. Fine-grained Segmentation by VAD
进一步细分超过30秒的语音片段,确保每个语句在3到30秒之间。使用Silero-VAD模型对片段进行切分,并将连续片段合并为适当大小的语句。
5. ASR
对分段的语音数据进行转录,使用最先进的多语言ASR模型Whisper-Medium。为了提高效率,采用WhisperX,其速度是官方Whisper的四倍,同时保持相似的准确性。
6. Filtering
进行质量过滤,确保数据集的质量。过滤标准包括:
语言识别:丢弃非目标语言的语音数据,或语言置信度低于80%的数据
语音质量评估:使用DNSMOS P.835 OVRL分数,仅保留分数高于3.0的语音数据
异常值过滤:根据音节时长的四分位范围剔除异常片段。
Emilia
http://example.com/2025/04/04/Emilia/