Alex's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Factorized RNN-T 论文阅读

为什么 Neural Transducer 中的Predictor无法被视作语言模型 唯一区别在于因为需要预测 φ。因此想到可以将Predictor拆分。 Factorized Neural Transducer 把Predictor拆分成两部分。 专门用于预测空白符号 φ,称为blank predictor; 另一个用于预测标签词汇(不包括 φ), 称为vocabulary
2025-02-23
#语音技术

HuBert论文阅读

HuBert示意图 概述 作用:从无监督数据中学习隐层表示。 端口:输入为音频,输出为隐层表示。 训练过程: 利用Acoustic Unit Discovery System得到label 通过HuBERT从mask之后的输入中得到隐层表示z 计算label和预测之间的loss 细节 Acoustic Unit Discovery 可以理解为语音离散
2025-02-19
#语音技术

Zipformer论文阅读

简介 ASR模型,基于Conformer改进 改进点 Downsampled encoder structure 不同于 Conformer 只在一个固定的帧率 25Hz 操作,Zipformer 采用了一个类似于 U-Net 的结构,在不同帧率上学习不同时间分辨率的时域表征。 Zipformer block 扩展conformer块结构 Non-Linear Atte
2025-02-19
#语音技术

VietASR论文阅读

概述 VietASR是一个针对小语种的ASR Pipeline,结合了HuBert和Zipformer,本质是HuBert对ASR的适配。 对HuBert的改动 VietASR使用Fbank直接进行掩码,替代音频+CNN。 修改损失函数 回顾,HuBert中 \[ L_m(f;X,M,Z)= \sum_{t\in M}logp_f(z_t|\tilde{X},t
2025-02-19
#语音技术

阿拉伯语ASR

挑战: Language Variants:Modern Standard Arabic(MSA), Classical Arabic(CA,古兰经), and Dialectal Arabic(DA,方言) Dialectal Variations:不同地区的方言 Code-Switching (CS) :夹杂法文和英文 Non-Standardized Orthography
2025-01-20
语音技术

阿拉伯语数据集

Casablanca 论文:https://anthropology/2024.emnlp-main.1211.pdf 优势:全人工标注(最大的全监督阿拉伯方言数据集) 时长:48h 方言:8种(ALG, EGY, JOR, MOR, UAE, PAL, MAU, YEM),8个标签 Segmentation:全人工标注 Transcription:全人工标注 code-swi
2025-01-19
语音技术

语音基础知识

LAS Listen: Encoder Attend: Attention Spell:Decoder 典型的seq2seq with attention Encoder 输入acoustic features, 输出提取出的特征 Encoder可以是RNN+CNN,也可以是self-attention 可以做down sampling 降低运算量 方法:空洞卷积
2025-01-19
语音技术

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
2025-01-17

补码再思考

我曾在很多课程中学习过补码的知识。然而,大多数时候我受到的教育都是机械地接受: 正数和0的补码就是该数字本身再补上最高比特0。负数的补码则是将其绝对值按位取反再加1。补码可以避免+0和-0的歧义。但是为什么要这么定义,以及它是如何避免+0和-0的,很多地方都没有解释。本文通过另一种看待补码的角度,尝试解释上述问题。   首先,我们回顾原码的定义: 原码是指一个二进制数左边加上符号位后
2024-01-18
计算机基础
12

搜索

Hexo Fluid
总访问量 次 总访客数 人