表情-2023-LANET
- LA-Net(Landmark-Aware Network),专注于在标签噪声下实现可靠的表情识别。标签噪声指的是训练数据中的标签错误,这在 FER 任务中是一个常见的问题,因为手动标注面部表情容易出错。LA-Net 旨在通过结合面部关键点(landmarks)的信息来提高 FER 系统的鲁棒性和准确性。
- LDE 计算每个样本的标签分布,并将其作为辅助监督信号。LDE 基于表情在特征空间中应该与其邻居具有相似的情感这一假设,为每个样本在表情空间和地标空间中识别邻居。地标信息被用来纠正表达空间中的错误。然后,该模块学习成对贡献分数并进行邻域聚合,以获得目标标签分布。此外,为了减轻批次划分对在线聚合的影响,使用指数移动平均 ( EMA )对目标标签分布在前几个历元进行求和。
- 然而,传统的 SCL 使用独热标签来选择正负对,因此在存在标签噪声的情况下表现不佳。因此,我们的 EL Loss 设计了一种新的基于标签分布的成对选择策略来实现抗噪声 SCL。具体来说,它首先将伪标注分配给有信心的图像,并将其余部分作为无监督样本。然后,该模块将相同图像的表情和地标特征,或具有相同伪标签的图像作为正对,所有其他组合作为负对
- 我们提出了一个基于特征点的 FER 模型,命名为 LA - Net,它利用人脸特征点来缓解标签噪声问题。( 2 ) LDE 模块利用地标信息修正表达空间中的错误,并找到一组近邻来构建每个样本的标签分布。( 3 ) EL Loss 设计了抗噪声有监督的对比学习,并通过表情-地标交互增强了表情特征提取器。( 4 ) LA - Net 在真实数据集和合成噪声数据集上均取得了当前最好的性能。
- 路标定位部分使用全连接层作为分类器,并在训练过程中最小化均方误差,记为 Llm。LDE 为每个样本识别 2 K 个近邻 (表达空间中的 K 和地标空间中的 K),并进行邻域聚合生成目标标签分布,进而提高训练监督的质量。此外,EL Loss 考虑了特征点和表情之间的相似性,并使用抗噪声有监督的对比学习将特征点信息融入到表情表示中。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 chiblog!
评论