多模态-CVPR2024 -Multimodal PathwayMultimodal Pathway
Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities 多模态路径:利用其他模态的无关数据改进变压器(CVPR 2024)_multimodal pathway: improve transformers with irre-CSDN博客
论文地址: https://arxiv.org/abs/2401.14405
项目网页:https://ailab-cvc.github.io/M2PT/
开源代码:https://github.com/AILab-CVC/M2PT
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/
- 其他模态的,任务无关的数据训练辅助 transformer。
- 目标 transformer 和辅助 transformer 之间构建 pathway,于是目标模态数据可以同时被两个模型评估
- A modality-specific tokenizer and task-specific head, 和之前一样
- Cross-Modal Re-parameterization 无任何推理代价的辅助权重。
- 目标模态与辅助模态:目标模态是指我们想要改进性能的模型的模态,例如图像。辅助模态则是与目标模态不相关的其他模态的数据,例如音频或点云数据。
- 多模态路径(Multimodal Pathway):这是一种连接目标模态Transformer和辅助模态Transformer的结构,允许目标模态数据通过两个模型的组件进行处理,从而获得两种模态的序列到序列建模能力。
- 跨模态重参数化(Cross-Modal Re-parameterization):这是一种技术手段,利用辅助模态的 Transformer 块,无需任何推理成本即可提升目标模态的性能。
- 模态特定的分词器和任务特定的头部:如同常规的 Transformer 模型,使用模态特定的分词器来处理输入数据,将其转换为序列(即 tokens),并使用任务特定的头部来进行最终的任务(如分类、检测等)。
- 利用辅助模态的知识:通过将目标模态的Transformer与一个已经在辅助模态数据上训练好的Transformer连接起来,目标模态可以通过跨模态重参数化技术,利用辅助模态模型的权重来增强其性能。
“modality-complementary knowledge of sequence-to-sequence modeling in transformers” (Zhang 等, p. 1) 🔤变压器中序列到序列建模的模态互补知识🔤
代码复现
- Bug:ModuleNotFoundError: No module named ‘torch._six’。
from torch._six import container_abcs 改成 TORCH_MAJOR = int (torch.version. Split (‘.’)[0]) TORCH_MINOR = int (torch.version. Split (‘.’)[1]) if TORCH_MAJOR == 1 and TORCH_MINOR < 8:
- from torch._six import container_abcs else: import collections. Abc as container_abcs。 from torch._six import inf 改成 from torch import inf
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 chiblog!
评论