Factorized RNN-T 论文阅读

为什么 Neural Transducer 中的Predictor无法被视作语言模型

唯一区别在于因为需要预测 φ。因此想到可以将Predictor拆分。

Factorized Neural Transducer

factorized neural Transducer

把Predictor拆分成两部分。

  1. 专门用于预测空白符号 φ,称为blank predictor;
  2. 另一个用于预测标签词汇(不包括 φ), 称为vocabulary predictor

这样,Predictor_v就相当于一个语言模型。

Loss function

原始的Transducer的Loss为:

\[ J_t = -\log P(y \in Y^* | x) = -\log \sum_{\alpha \in \beta^{-1}(y)} P(\alpha | x) \]

而factorized_rnnt的Loss为:

\[ J_f = J_t - \lambda \log P(y_1^U) \]


Factorized RNN-T 论文阅读
http://example.com/2025/02/23/factorized_rnnt-论文阅读/
作者
Yujie Tu
发布于
2025年2月23日
许可协议