表情-2023-DFER-CLIP
DFER-CLIP——使用创新视觉语言模型进行动态面部表情识别_fer sfer dfer-CSDN博客
传统 DFER 方法、基于 CLIP 的方法和 DFER-CLIP 方法之间的差异
在视觉部分,以 CLIP 图像编码器为基础,引入了一个由多个 Transformer 编码器组成的时间模型,模拟随时间变化的面部表情特征。在文本部分,采用了与面部行为相关的面部表情描述符,这些描述符由大规模语言模型(如 ChatGPT)生成。我们还为这些描述符设计了可学习的上下文,以帮助模型在训练过程中学习每个面部表情的相关上下文信息。
三个数据集,视频,七种基本面部表情
基于文本(无分类器)的训练策略
Learnable context+基于 LLM 的描述,时序建模(几个 transformer encoder)提取时序特征
每个生成的面部表情类别的描述符组合在一起,形成一个综合描述。
code
表情-2023-LANET
LA-Net(Landmark-Aware Network),专注于在标签噪声下实现可靠的表情识别。标签噪声指的是训练数据中的标签错误,这在 FER 任务中是一个常见的问题,因为手动标注面部表情容易出错。LA-Net 旨在通过结合面部关键点(landmarks)的信息来提高 FER 系统的鲁棒性和准确性。
LDE 计算每个样本的标签分布,并将其作为辅助监督信号。LDE 基于表情在特征空间中应该与其邻居具有相似的情感这一假设,为每个样本在表情空间和地标空间中识别邻居。地标信息被用来纠正表达空间中的错误。然后,该模块学习成对贡献分数并进行邻域聚合,以获得目标标签分布。此外,为了减轻批次划分对在线聚合的影响,使用指数移动平均 ( EMA )对目标标签分布在前几个历元进行求和。
然而,传统的 SCL 使用独热标签来选择正负对,因此在存在标签噪声的情况下表现不佳。因此,我们的 EL Loss 设计了一种新的基于标签分布的成对选择策略来实现抗噪声 SCL。具体来说,它首先将伪标注分配给有信心的图像,并将其余部分作为无监督样本。然后,该模块将相同图像的表情和地标特征,或具有相同伪标签的图像作为正对 ...
表情-2024-zero shot, LLM
Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer
“projection on latent visual and textual representations to emphasize crucial task-specific elements while disregarding irrelevant ones.” (Zhao 等, 2024, p. 2) 从 initial joint space 映射到 task specific joint space
Cos similarity
表情-合集-landmarks
LA-Net: Landmark-Aware Learning for Reliable Facial Expression Recognition under Label Noise 1. 解决 label noise 问题:LDE module 和 EL loss 1. LDE 模块估计训练样本的标签分布,以增强对损坏标签的抵抗能力 2. 一个有知识的特征提取器也可以帮助减轻标签噪声,用 landmarks。“expression-landmark contrastive loss (EL Loss) 3. Landmark 没有用在 Inference 只是 trainingLA-Net/loss.py at master · hw-tony/LA-Net (github.com) 4. 提取 Landmark 特征的 heatmap可参考 HRNet网络简介-CSDN博客
model-GNN
GNN
图神经网络研究综述(GNN) (qq.com)
综述 | 基于图神经网络的时间序列模型 (qq.com)
深度学习GAN网络之CycleGAN - 知乎 (zhihu.com)
图神经网络模型在大规模数据应用中面临的挑战可分为图数据结构、图神经网络模型、数据规模、硬件平台。
图卷积神经网络、图注意力网络、循环图神经网络和自编码器图神经网络.
model-generative modesl
[[model-GAN]][[model-encoder]][[model-diffusion]]
优缺点GAN models are known for potentially unstable training and less diversity in generation due to their adversarial training nature. VAE relies on a surrogate loss. Flow models have to use specialized architectures to construct reversible transform.