Alex's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Emilia

Emilia Pipeline 1. Standardization 将原始语音数据统一格式,包括: 转换为WAV格式 设置为单声道 重采样至24 kHz 设置样本宽度为16位,调整目标分贝级别为-20 dBFS 标准化波形,确保值在-1到1之间,避免失真。 2. Source Separation 从原始语音数据中提取清晰的人声,去除背景音乐或噪声。使用Ultimate
2025-04-04
#语音技术

WenetSpeech4TTS论文阅读

Pipeline 1. Adjacent Segments Merging: 为了处理很多段落过短且语义不完整的问题,采用基于时间间隔和说话人相似性的合并策略。如果两个段落之间的间隔小于0.55秒,并且它们的说话人相似度超过0.65,则将它们合并为一个段落,直到句子的时长达到20秒。 2. Boundary Extension: 为了解决段落开始和结束时可能截断的词汇问题,采用边界扩展
2025-04-04
#语音技术

AutoPrep论文阅读

Pipeline示意图 处理流程 1. Speech enhancement 采用 universal-sample rate 的 USRBSRNN model, 支持8k-48kHz。 此外,还采用了一个 non-streaming 的 BSRNN noise reduction model 由于原始语音过长,非流式BSRNN无法处理,我们将原始语音划分为 12 秒的 windo
2025-04-04
#语音技术

BL-JUST

概述 为了把无监督和有监督统一成一次训练。 定义 upper-level problem 是 unsupervised的, lower-level problem 是supervised。 问题详细定义 1. 目标优化问题 \[ \min_{\theta, \phi} \sum_{(x, y) \in D_{\text{sup}}} \ell_{\text{sup}}((x, y)
2025-03-17
#语音技术

data2vec 论文阅读

概述 和Bert等预训练模型的本质区别在于:Bert在原始文本上mask,而该模型在latent representation上进行预测。文章认为所有模态在latent representation上都是一些稠密向量,所以训练的方法相同。 模型细节 所有模态的数据在encoder之后。然后复制两份,一份mask之后通过student model,只在mask的地方产生输出。一份不m
2025-03-10
#语音技术

RNN-T 论文阅读

公式推导 定义: 定义任务输入:\(x = (x_1, x_2, \dots, x_T)\),其中 \(x\) 中的元素 \(x_i \in \mathcal{X}\),\(x \in \mathcal{X}^*\)。每一个\(x_i\) 一般为MFCC的倒谱系数构成的向量。 定义任务输出:\(y = (y_1, y_2, \dots, y_U)\),其中 \(y\) 中的元素
2025-03-05
#语音技术

Pruned RNN-T 论文阅读

RNN-T 的缺点 损失函数计算相对较慢 占用较多内存 RNN-T模型需要储存一个4维的张量,维度是 \((N, T, U, C)\), 其中\(N\)是batch_size,\(T\)是Transcription Network的输出长度,\(U\)是Prediction的输出长度,\(V\)是词表大小。 本文将\(U\)限制为 \(S\subseteq U\),从而加速训练。
2025-03-05
#语音技术

BPE 论文阅读

概述 为了解决罕见词不在词汇表中的问题。 每次合并出现频率最高的词组。 唯一超参数为合并次数 伪代码 12345678910111213141516171819202122232425262728Initialize vocabulary with word frequenciesSet number of merge operationsDefine function get_stat
2025-03-03
#语音技术

RNN-Transducer with stateless prediction network 论文阅读

概述 过去, prediction network被认为是语言模型。这篇文章推翻了这一论点。 证据是,经过实验,一个stateless(例如非recurrent)的prediction network(这种网络仅依赖于上一个时刻输出)在使用wordpieces时,几乎能够与原始RNNT表现相当。 结论:RNNT 的 prediction network并不像经典 ASR 系统中的语言模
2025-03-03
#语音技术

unispeech 论文阅读

概述 利用L、M、N三个数据集(定义见下)。 在L、M上预训练模型。 冻结特征提取器,并在N上对Transformer部分进行微调。 定义 L:大规模、有标签的high-resource语种数据集 M:大规模、无标签的low-resource语种数据集 N:小规模、有标签的low-resource语种数据集 模型结构 使用multitask学习方法。 目标1:s
2025-02-27
#语音技术
12

搜索

Hexo Fluid
总访问量 次 总访客数 人