表情-2023-DFER-CLIP
DFER-CLIP——使用创新视觉语言模型进行动态面部表情识别_fer sfer dfer-CSDN博客
传统 DFER 方法、基于 CLIP 的方法和 DFER-CLIP 方法之间的差异
在视觉部分,以 CLIP 图像编码器为基础,引入了一个由多个 Transformer 编码器组成的时间模型,模拟随时间变化的面部表情特征。在文本部分,采用了与面部行为相关的面部表情描述符,这些描述符由大规模语言模型(如 ChatGPT)生成。我们还为这些描述符设计了可学习的上下文,以帮助模型在训练过程中学习每个面部表情的相关上下文信息。
三个数据集,视频,七种基本面部表情
基于文本(无分类器)的训练策略
Learnable context+基于 LLM 的描述,时序建模(几个 transformer encoder)提取时序特征
每个生成的面部表情类别的描述符组合在一起,形成一个综合描述。
code
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 chiblog!
评论