• 预训练领域有两种流行的方法,基于对比学习和基于掩码重建
  • 对比学习 对比式无监督预训练(Contrastive Pre-training)_对比预训练-CSDN博客
    • 互信息最大化:使用全局上下文和局部特征作为不同的视图,以经典工作Deep InfoMax为例,通俗地说,我们根据输入图像的这个”狗鼻子“就要知道,输入图片是一幅狗的图片,而不是负样本猫的。输入图片经过卷积网络得到M x M大小的特征图,拉成一个一维的特征,互信息最大化要使得同一张图片的任意局部特征(特征图上任意一个位置的特征)与全局特征之间的距离尽可能近,从而能“一叶知秋”。
    • 相对位置预测:相对位置预测使用不同的局部组件作为不同的视图。BERT除了引入了Masked Language Modeling任务,还引入了句子级别的对比任务Next Sentence Prediction (NSP),来提高句子级别的任务的迁移性。具体地,NSP 使用二元分类器判断从语料库中采样的两个句子是否相邻(每句话是整个文档的一个局部)。
    • 实例判别(使用数据增强来生成同一个实例的不同视图):使用数据增强来生成同一个实例的不同视图。
  • CLIP(对比语言-图像预训练),CLIP遵循了将图像的嵌入空间与相应文本描述对齐的一般思路。它采用批次构建技术,将整个句子描述作为整体编码,而不是逐字处理文本。CLIP通过优化给定配对的相似度分数来联合训练文本和图像编码器。在推断时,该模型可以通过学习的文本编码器将目标数据集类别的名称或描述以文本形式嵌入,用于零-shot预测。
  • VATT(视频-音频-文本变压器)(它通过线性投影首先处理来自不同模态的原始数据,并通过噪声对比估计(NCE)训练模型学习一个语义潜在空间)
  • 分布外挑战和模型偏差放大