Emilia

Emilia Pipeline

1. Standardization

将原始语音数据统一格式,包括:

  • 转换为WAV格式

  • 设置为单声道

  • 重采样至24 kHz

  • 设置样本宽度为16位,调整目标分贝级别为-20 dBFS

  • 标准化波形,确保值在-1到1之间,避免失真。

2. Source Separation

从原始语音数据中提取清晰的人声,去除背景音乐或噪声。使用Ultimate Vocal Remover及其预训练模型UVR-MDX-Net Inst 3进行源分离。

3. Speaker Diarization

将长语音数据按说话人分割成多个片段,确保每个片段仅包含一个说话人。使用pyannote/speaker-diarization-3.1管道,完成说话人分割、嵌入和聚类。

4. Fine-grained Segmentation by VAD

进一步细分超过30秒的语音片段,确保每个语句在3到30秒之间。使用Silero-VAD模型对片段进行切分,并将连续片段合并为适当大小的语句。

5. ASR

对分段的语音数据进行转录,使用最先进的多语言ASR模型Whisper-Medium。为了提高效率,采用WhisperX,其速度是官方Whisper的四倍,同时保持相似的准确性。

6. Filtering

进行质量过滤,确保数据集的质量。过滤标准包括:

语言识别:丢弃非目标语言的语音数据,或语言置信度低于80%的数据

语音质量评估:使用DNSMOS P.835 OVRL分数,仅保留分数高于3.0的语音数据

异常值过滤:根据音节时长的四分位范围剔除异常片段。


Emilia
http://example.com/2025/04/04/Emilia/
作者
Yujie Tu
发布于
2025年4月4日
许可协议