Emilia

Emilia Pipeline

将原始语音数据统一格式，包括：

从原始语音数据中提取清晰的人声，去除背景音乐或噪声。使用Ultimate Vocal Remover及其预训练模型UVR-MDX-Net Inst 3进行源分离。

将长语音数据按说话人分割成多个片段，确保每个片段仅包含一个说话人。使用pyannote/speaker-diarization-3.1管道，完成说话人分割、嵌入和聚类。

进一步细分超过30秒的语音片段，确保每个语句在3到30秒之间。使用Silero-VAD模型对片段进行切分，并将连续片段合并为适当大小的语句。

对分段的语音数据进行转录，使用最先进的多语言ASR模型Whisper-Medium。为了提高效率，采用WhisperX，其速度是官方Whisper的四倍，同时保持相似的准确性。

进行质量过滤，确保数据集的质量。过滤标准包括：

语言识别：丢弃非目标语言的语音数据，或语言置信度低于80%的数据

语音质量评估：使用DNSMOS P.835 OVRL分数，仅保留分数高于3.0的语音数据

异常值过滤：根据音节时长的四分位范围剔除异常片段。

#语音技术

Emilia

http://example.com/2025/04/04/Emilia/

作者

Yujie Tu

发布于

2025年4月4日

许可协议