Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities 多模态路径:利用其他模态的无关数据改进变压器(CVPR 2024)_multimodal pathway: improve transformers with irre-CSDN博客
论文地址: https://arxiv.org/abs/2401.14405
项目网页:https://ailab-cvc.github.io/M2PT/
开源代码:https://github.com/AILab-CVC/M2PT
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

  1. 其他模态的,任务无关的数据训练辅助 transformer。
  2. 目标 transformer 和辅助 transformer 之间构建 pathway,于是目标模态数据可以同时被两个模型评估
    1. A modality-specific tokenizer and task-specific head, 和之前一样
    2. Cross-Modal Re-parameterization 无任何推理代价的辅助权重。
  • 目标模态与辅助模态:目标模态是指我们想要改进性能的模型的模态,例如图像。辅助模态则是与目标模态不相关的其他模态的数据,例如音频或点云数据。
  • 多模态路径(Multimodal Pathway):这是一种连接目标模态Transformer和辅助模态Transformer的结构,允许目标模态数据通过两个模型的组件进行处理,从而获得两种模态的序列到序列建模能力。
  • 跨模态重参数化(Cross-Modal Re-parameterization):这是一种技术手段,利用辅助模态的 Transformer 块,无需任何推理成本即可提升目标模态的性能。
  1. 模态特定的分词器和任务特定的头部:如同常规的 Transformer 模型,使用模态特定的分词器来处理输入数据,将其转换为序列(即 tokens),并使用任务特定的头部来进行最终的任务(如分类、检测等)。
  2. 利用辅助模态的知识:通过将目标模态的Transformer与一个已经在辅助模态数据上训练好的Transformer连接起来,目标模态可以通过跨模态重参数化技术,利用辅助模态模型的权重来增强其性能。

“modality-complementary knowledge of sequence-to-sequence modeling in transformers” (Zhang 等, p. 1) 🔤变压器中序列到序列建模的模态互补知识🔤

代码复现

  1. Bug:ModuleNotFoundError: No module named ‘torch._six’。
    1. from torch._six import container_abcs 改成 TORCH_MAJOR = int (torch.version. Split (‘.’)[0]) TORCH_MINOR = int (torch.version. Split (‘.’)[1]) if TORCH_MAJOR == 1 and TORCH_MINOR < 8:

    2. from torch._six import container_abcs else: import collections. Abc as container_abcs。 from torch._six import inf 改成 from torch import inf