Factorized RNN-T 论文阅读
为什么 Neural Transducer 中的Predictor无法被视作语言模型
唯一区别在于因为需要预测 φ。因此想到可以将Predictor拆分。
Factorized Neural Transducer
把Predictor拆分成两部分。
- 专门用于预测空白符号 φ,称为blank predictor;
- 另一个用于预测标签词汇(不包括 φ), 称为vocabulary predictor
这样,Predictor_v就相当于一个语言模型。
Loss function
原始的Transducer的Loss为:
\[ J_t = -\log P(y \in Y^* | x) = -\log \sum_{\alpha \in \beta^{-1}(y)} P(\alpha | x) \]
而factorized_rnnt的Loss为:
\[ J_f = J_t - \lambda \log P(y_1^U) \]
Factorized RNN-T 论文阅读
http://example.com/2025/02/23/factorized_rnnt-论文阅读/