data2vec 论文阅读

概述

和Bert等预训练模型的本质区别在于:Bert在原始文本上mask,而该模型在latent representation上进行预测。文章认为所有模态在latent representation上都是一些稠密向量,所以训练的方法相同。

模型细节

data2vec

所有模态的数据在encoder之后。然后复制两份,一份mask之后通过student model,只在mask的地方产生输出。一份不mask,给teacher model直接学习上下文表示,然后让两者的输出对齐。

Encoder 细节

encoder部分并没有将不同模态统一。

  • 视觉:参考ViT
  • 语音: 一个多层 1-D 卷积层, 16 kHz waveform to 50 Hz representations
  • 文本:token embedding

Masking 细节

mask也不是统一的。

  • 视觉:block-wise masking strategy
  • 语音:mask spans of latent speech representations
  • 文本:tokens

student model & teacher model细节

都是普通Transformer。

其中,teacher model的参数遵循以下公式:

\[ \Delta \leftarrow \tau \Delta + (1 - \tau) \theta \]

其中 \(\Delta\) 是teacher model的参数, \(\theta\) 是student model 的参数。 \(\tau\) 是缓慢增加的。

学生模型的训练目标是:

\[ y_t = \frac{1}{K} \sum_{l=L-K+1}^{L} \hat{a}_{l,t} \]

其中, \(\hat{a}_{l,t}\) 是teacher model经过归一化的第\(l\)个块在时间步 \(t\) 的输出,\(K\)是前\(K\)个块的数量,\(L\)是总块数。


data2vec 论文阅读
http://example.com/2025/03/10/data2vec-论文阅读/
作者
Yujie Tu
发布于
2025年3月10日
许可协议