多模态-CVPR2024 -Multimodal PathwayMultimodal Pathway

发表于2024-07-28|更新于2024-07-28|论文

|阅读量:

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities 多模态路径:利用其他模态的无关数据改进变压器（CVPR 2024）_multimodal pathway: improve transformers with irre-CSDN博客
论文地址： https://arxiv.org/abs/2401.14405
项目网页：https://ailab-cvc.github.io/M2PT/
开源代码：https://github.com/AILab-CVC/M2PT
讲解视频：https://www.bilibili.com/video/BV1Sm41127eW/

其他模态的，任务无关的数据训练辅助 transformer。
目标 transformer 和辅助 transformer 之间构建 pathway，于是目标模态数据可以同时被两个模型评估
1. A modality-specific tokenizer and task-specific head, 和之前一样
2. Cross-Modal Re-parameterization 无任何推理代价的辅助权重。

目标模态与辅助模态：目标模态是指我们想要改进性能的模型的模态，例如图像。辅助模态则是与目标模态不相关的其他模态的数据，例如音频或点云数据。
多模态路径（Multimodal Pathway）：这是一种连接目标模态Transformer和辅助模态Transformer的结构，允许目标模态数据通过两个模型的组件进行处理，从而获得两种模态的序列到序列建模能力。
跨模态重参数化（Cross-Modal Re-parameterization）：这是一种技术手段，利用辅助模态的 Transformer 块，无需任何推理成本即可提升目标模态的性能。

模态特定的分词器和任务特定的头部：如同常规的 Transformer 模型，使用模态特定的分词器来处理输入数据，将其转换为序列（即 tokens），并使用任务特定的头部来进行最终的任务（如分类、检测等）。
利用辅助模态的知识：通过将目标模态的Transformer与一个已经在辅助模态数据上训练好的Transformer连接起来，目标模态可以通过跨模态重参数化技术，利用辅助模态模型的权重来增强其性能。

“modality-complementary knowledge of sequence-to-sequence modeling in transformers” (Zhang 等, p. 1) 🔤变压器中序列到序列建模的模态互补知识🔤

代码复现

Bug：ModuleNotFoundError: No module named ‘torch._six’。
1. from torch._six import container_abcs 改成 TORCH_MAJOR = int (torch.version. Split (‘.’)[0]) TORCH_MINOR = int (torch.version. Split (‘.’)[1]) if TORCH_MAJOR == 1 and TORCH_MINOR < 8:
2. from torch._six import container_abcs else: import collections. Abc as container_abcs。 from torch._six import inf 改成 from torch import inf

文章作者: chierhy

文章链接: https://chierhy.github.io/论文/多模态-CVPR2024 -Multimodal PathwayMultimodal Pathway/0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 chiblog！

评论