DFER-CLIP——使用创新视觉语言模型进行动态面部表情识别_fer sfer dfer-CSDN博客

  • 传统 DFER 方法、基于 CLIP 的方法和 DFER-CLIP 方法之间的差异

  • 视觉部分,以 CLIP 图像编码器为基础,引入了一个由多个 Transformer 编码器组成的时间模型,模拟随时间变化的面部表情特征。在文本部分,采用了与面部行为相关的面部表情描述符,这些描述符由大规模语言模型(如 ChatGPT)生成。我们还为这些描述符设计了可学习的上下文,以帮助模型在训练过程中学习每个面部表情的相关上下文信息。

  • 三个数据集,视频,七种基本面部表情

  • 基于文本(无分类器)的训练策略

  • Learnable context+基于 LLM 的描述,时序建模(几个 transformer encoder)提取时序特征

    每个生成的面部表情类别的描述符组合在一起,形成一个综合描述。

code