传统 DFER 方法、基于 CLIP 的方法和 DFER-CLIP 方法之间的差异
在视觉部分，以 CLIP 图像编码器为基础，引入了一个由多个 Transformer 编码器组成的时间模型，模拟随时间变化的面部表情特征。在文本部分，采用了与面部行为相关的面部表情描述符，这些描述符由大规模语言模型（如 ChatGPT）生成。我们还为这些描述符设计了可学习的上下文，以帮助模型在训练过程中学习每个面部表情的相关上下文信息。
三个数据集，视频，七种基本面部表情
基于文本（无分类器）的训练策略
Learnable context+基于 LLM 的描述，时序建模（几个 transformer encoder）提取时序特征

每个生成的面部表情类别的描述符组合在一起，形成一个综合描述。

code